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AVANT-PROPOS 


Cette nouvelle édition est une évolution de la version initiale publiée en 2009. 
Nous rappelons que cette premiére version s’inscrivait dans la continuation du 
livre Régression : théorie et applications paru chez Springer-Verlag (Paris). Cette 
nouvelle édition est plus qu’une mise a jour de la version initiale, la structure a été 
complétement repensée et de nouvelles parties sont apparues. Par ailleurs, un site 
web dédié au livre est proposé à l’url https: //regression-avec-r.github.io/. 
On pourra notamment y trouver tous les jeux de données et les lignes de code 
utilisés dans chaque chapitre ainsi que les corrections des exercices. 

L’objectif de cet ouvrage est de rendre accessible au plus grand nombre les dif- 
férentes façons d’aborder un des problèmes auquel le statisticien est très souvent 
confronté : la régression. Les aspects théoriques et pratiques sont simultanément 
présentés. En effet, comme pour toute méthode statistique, il est nécessaire de 
comprendre précisément le modèle utilisé pour proposer des résultats pertinents 
sur des problèmes concrets. Si ces deux objectifs sont atteints, il sera alors aisé de 
transposer ces acquis à d’autres méthodes, moyennant un investissement modéré. 
Les grandes étapes — modélisation, estimation, choix de variables, examen de la 
validité du modèle choisi — restent les mêmes d’une méthode à l’autre. C’est dans 
cet esprit que cette nouvelle édition a été écrite. 

Nous avons donc souhaité un livre avec toute la rigueur scientifique possible mais 
dont le contenu et les idées ne soient pas noyés dans les démonstrations et les 
lignes de calculs. Pour cela, seules quelques démonstrations, que nous pensons 
importantes, sont conservées dans le corps du texte. Les autres résultats sont 
démontrés à titre d'exercice. Des exercices, de difficultés variables, sont proposés en 
fin de chapitre. La présence de f indique des exercices plus difficiles. Des questions 
de cours sous la forme de QCM sont aussi proposées afin d’aider aux révisions du 
chapitre. Les corrections sont fournies sur le site du livre. 

Afin que les connaissances acquises ne restent pas uniquement théoriques, nous 
avons intégré des exemples traités avec le logiciel libre R. Grâce aux commandes 
rapportées dans le livre, le lecteur pourra ainsi se familiariser avec le logiciel et 
retrouver les mêmes résultats que ceux donnés dans le livre. Nous encourageons 
donc les lecteurs à utiliser les données et les codes afin de s’approprier la théorie 
mais aussi la pratique. 

Cet ouvrage s'adresse aux étudiants des filières scientifiques, élèves ingénieurs, 
chercheurs dans les domaines appliqués et plus généralement à toutes les personnes 
confrontés à un problème de régression. Il utilise notamment les notions de modèle, 
estimateur, biais-variance, intervalle de confiance, test... Pour les lecteurs peu à 
Vaise avec ces concepts, le livre de Lejeune (2004) pourra constituer une aide 
précieuse pour certains paragraphes. Cet ouvrage nécessite la connaissance des 
bases du calcul matriciel : définition d’une matrice, somme, produit, inverse, ainsi 
que valeurs propres et vecteurs propres. Des résultats classiques sont toutefois 
rappelés en annexes afin d'éviter de consulter trop souvent d’autres ouvrages. 

Le livre se décompose en cinq parties, chacune constituée de deux à quatre cha- 
pitres. La première pose les fondamentaux du problème de régression et montre, à 


travers quelques exemples, comment on peut l’aborder à l’aide d’un modèle linéaire 
simple d’abord, puis multiple. Les problèmes d’estimation ainsi que la géométrie 
associée à la méthode des moindres carrés sont proposés dans les deux premiers 
chapitres de cette partie. Le troisième chapitre propose les principaux diagnostics 
qui permettent de s’assurer de la validité du modèle tandis que le dernier présente 
quelques stratégies à envisager lorsque les hypothèses classiques du modèle linéaire 
ne sont pas vérifiées. 

La seconde partie aborde la partie inférentielle. Il s’agit d’une des parties les plus 
techniques et calculatoires de l’ouvrage. Cette partie permet, entre autres, d’expo- 
ser précisément les procédures de tests et de construction d’intervalles de confiance 
dans le modèle linéaire. Elle décrit également les spécificités engendrées par luti- 
lisation de variables qualitatives dans ce modèle. 

La troisième partie est consacrée à un problème désormais courant en régression : 
la réduction de la dimension. En effet, face à l’augmentation conséquente des don- 
nées, nous sommes de plus en plus confrontés à des problèmes où le nombre de 
variables est (très) grand. Les techniques standards appliquées à ce type de données 
se révèlent souvent peu performantes et il est nécessaire de trouver des alterna- 
tives. Nous présentons tout d’abord les techniques classiques de choix de variables 
qui consistent à se donner un critère de performance et à rechercher à l’aide de 
procédures exhaustives ou pas à pas le sous-groupe de variables qui optimise le cri- 
tère donné. Nous présentons ensuite les approches régularisées de type Ridge-Lasso 
qui consistent à trouver les estimateurs qui optimisent le critère des moindres car- 
rés pénalisés par une fonction de la norme des paramètres. Le troisième chapitre 
propose de faire la régression non pas sur les variables initiales mais sur des com- 
binaisons linéaires de celles-ci. Nous insistons sur la régression sur composantes 
principales (PCR) et la régression Partial Least Square (PLS). A ce stade, nous 
disposons de plusieurs algorithmes qui répondent à un même problème de régres- 
sion. Il devient important de se donner une méthode qui permette d’en choisir un 
automatiquement (on ne laisse pas l'utilisateur décider, ce sont les données qui 
doivent choisir). Nous proposons un protocole basé sur la minimisation de risques 
empiriques calculés par des algorithmes de type validation croisée qui permet de 
choisir l’algorithme le plus approprié pour un problème donné. 

Dans la quatrième partie, entièrement nouvelle, nous présentons le modèle linéaire 
généralisé. Cette partie généralise les modèles initiaux, qui permettaient de traiter 
uniquement le cas d’une variable à expliquer continue, à des variables à expliquer 
binaire (régression logistique) ou de comptage (régression de Poisson). Nous insis- 
tons uniquement sur les spécificités associées à ces types de variables, la plupart 
des concepts étudiés précédemment s'adaptent directement à ces cas nouveaux. 
Enfin, la cinquième et dernière partie est dédiée à une introduction à l’estima- 
tion non paramétrique. Cette partie présente brièvement les estimateurs de type 
moyennes locales à travers les exemples des splines, estimateurs à noyau et des 
plus proches voisins. Elle inclut également une discussion sur les avantages et 
inconvénients d’une telle modélisation face aux modèles paramétriques étudiés 
précédemment. 
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Première partie 


Introduction au modèle 
linéaire 


Chapitre 1 


La régression linéaire simple 


1.1 Introduction 


L’origine du mot régression vient de Sir Francis Galton. En 1885, travaillant sur 
Vhérédité, il chercha à expliquer la taille des fils en fonction de celle des pères. Il 
constata que lorsque le pére était plus grand que la moyenne, taller than medio- 
crity, son fils avait tendance à être plus petit que lui et, a contrario, que lorsque 
le père était plus petit que la moyenne, shorter than mediocrity, son fils avait ten- 
dance à être plus grand que lui. Ces résultats l’ont conduit à considérer sa théorie 
de regression toward mediocrity. Cependant, l’analyse de causalité entre plusieurs 
variables est plus ancienne et remonte au milieu du XvIII® siècle. En 1757, R. Bos- 
covich, né à Ragusa, l’actuelle Dubrovnik, proposa une méthode minimisant la 
somme des valeurs absolues entre un modèle de causalité et les observations. En- 
suite Legendre, dans son célèbre article de 1805, « Nouvelles méthodes pour la 
détermination des orbites des comètes », introduisit la méthode d’estimation par 
moindres carrés des coefficients d’un modèle de causalité et donna le nom à la 
méthode. Parallèlement, Gauss publia en 1809 un travail sur le mouvement des 
corps célestes qui contenait un développement de la méthode des moindres carrés, 
qu'il affirmait utiliser depuis 1795 (Birkes & Dodge, 1993). 

Dans ce chapitre, nous allons analyser la régression linéaire simple : nous pouvons 
la voir comme une technique statistique permettant de modéliser la relation linéaire 
entre une variable explicative (notée X) et une variable à expliquer (notée Y). 
Cette présentation dans un cas simple va nous permettre de bien comprendre les 
enjeux de cette méthode, les problèmes posés et les réponses apportées. 


1.1.1 Un exemple: la pollution de l’air 


La pollution de l’air constitue actuellement une des préoccupations majeures de 
santé publique. De nombreuses études épidémiologiques ont permis de mettre en 
évidence l'influence sur la santé de certains composés chimiques comme le dioxyde 
de souffre (SO2), le dioxyde d’azote (NO2), l’ozone (03) ou des particules sous 
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forme de poussières contenues dans l’air. L’influence de cette pollution est no- 
table sur les personnes sensibles (nouveau-nés, asthmatiques, personnes âgées). La 
prévision des pics de concentration de ces composés est donc importante. Nous 
nous intéressons plus particulièrement à la concentration en ozone. Nous possé- 
dons quelques connaissances a priori sur la manière dont se forme l’ozone, grâce 
aux lois régissant les équilibres chimiques. Un des catalyseurs de l’ozone est le 
rayonnement, cette variable est plus difficile 4 prévoir que la température et nous 
allons étudier la concentration de l’ozone, qui est fonction de la température ; plus 
la température est élevée, plus la concentration en ozone est importante. Cette 
relation trés vague doit étre améliorée afin de pouvoir prédire les pics d’ozone. 
Afin de mieux comprendre ce phénomène, l’association Air Breizh (surveillance 
de la qualité de lair en Bretagne) mesure depuis 1994 la concentration en O3 
(en ug/ml) toutes les 10 minutes. Le maximum journalier de la concentration en 
O3 sera noté 03. Air Breizh collecte également à certaines heures de la journée 
des données météorologiques comme la température, la nébulosité, le vent... Les 
données sont disponibles en ligne (voir Avant-propos). Le tableau suivant donne 
les 5 premières mesures effectuées. 


Individu 03 | T12 
1 63.6 | 13.4 
2 89.6 15 
3 79 7.9 
4 81.2 | 13.1 
5 88 | 14.1 


Tableau 1.1 — 5 données de température à 12 h et teneur maximale en ozone. 


Nous allons donc chercher a expliquer le maximum de 03 de la journée par la 
température a 12 h. Le but de cette régression est double : 

— ajuster un modèle pour expliquer la concentration en 03 en fonction de T12; 
— prédire les valeurs de concentration en 03 pour de nouvelles valeurs de T12. 
Avant toute analyse, il est intéressant de représenter les données. 
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Fig. 1.1 — 50 données journaliéres de température et 03. 
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Chaque point du graphique (fig.1.1) représente, pour un jour donné, une mesure 
de la température à 12 h et le pic d’ozone de la journée. 

Pour analyser la relation entre les x; (température) et les y; (ozone), nous allons 
chercher une fonction f telle que 


yi © f (xi). 


Pour définir ~, il faut donner un critère quantifiant la qualité de l’ajustement de 
la fonction f aux données et une classe de fonctions G dans laquelle est supposée 
se trouver la vraie fonction inconnue. Le probléme mathématique peut s’écrire de 
la façon suivante : 


argmin X` (y: — f(x), (1.1) 


FEG izi 


où n représente le nombre de données à analyser et {(.) est appelée fonction de 
coût ou encore fonction de perte. 


1.1.2 Un second exemple : la hauteur des arbres 


Cet exemple utilise des données fournies par PUR2PI et le CIRAD forêt (voir Re- 
merciements). Lorsque le forestier évalue la vigueur d’une forêt, il considère souvent 
la hauteur des arbres qui la composent. Plus les arbres sont hauts, plus la forêt ou 
la plantation produit. Afin de calculer le volume de l’arbre, il est nécessaire d’avoir 
sa hauteur et d’utiliser ensuite une formule du type « tronc de cône ». Cependant, 
mesurer la hauteur d’un arbre d’une vingtaine de mètres n’est pas aisé et demande 
un dendromètre. Ce type d’appareil mesure un angle entre le sol et le sommet de 
Varbre. Il nécessite donc une vision claire de la cime de l’arbre et un recul assez 
grand afin d’avoir une mesure précise de l'angle et donc de la hauteur. 

Dans certains cas, il est impossible de mesurer la hauteur, car ces deux conditions 
ne sont pas réunies, ou la mesure demande quelquefois trop de temps ou encore le 
forestier n’a pas de dendromètre. Il est alors nécessaire d’estimer la hauteur grace 
à une mesure simple, la mesure de la circonférence à 1 mètre 30 du sol. 

Nous possédons des mesures sur des eucalyptus dans une parcelle plantée et nous 
souhaitons à partir de ces mesures élaborer un modèle de prévision de la hauteur. 
Les eucalyptus étant plantés pour servir de matière première dans la pâte à papier, 
ils sont vendus au volume de bois. Il est donc important de connaître le volume 
et la hauteur, afin d’évaluer la réserve en matière première dans la plantation (ou 
volume sur pied total). Les surfaces plantées sont énormes, il n’est pas question de 
prendre trop de temps pour la mesure et prévoir la hauteur par la circonférence 
est une méthode permettant la prévision du volume sur pied. La parcelle d’intérét 
est constituée d’eucalyptus de 6 ans, âge de « maturité » des eucalyptus, c’est-a- 
dire l’âge en fin de rotation avant la coupe. Dans cette parcelle, nous avons alors 
mesuré n = 1429 couples circonférence-hauteur. Le tableau suivant donne les 5 
premières mesures effectuées. 


Régression avec R 


Individu ht | circ 
1 18.25 36 
2 19.75 42 
3 16.50 33 
4 18.25 39 
5 19.50 43 


Tableau 1.2 — Hauteur et circonférence (ht et circ) des 5 premiers eucalyptus. 


Nous souhaitons donc expliquer la hauteur par la circonférence. Avant toute modé- 
lisation, nous représentons les données. Chaque point du graphique 1.2 représente 
une mesure du couple circonférence/hauteur sur un eucalyptus. 


30 40 50 . 60 70 
circ 


Fig. 1.2 — Représentation des mesures pour les n = 1429 eucalyptus mesurés. 


Pour prévoir la hauteur en fonction de la circonférence, nous allons donc chercher 
une fonction f telle que 


yi © f(x) 


pour chaque mesure à € {1,..., 1429}. 

A nouveau, afin de quantifier le symbole ~, nous allons choisir une classe de fonc- 
tions G. Cette classe représente toutes les fonctions d’ajustement possible pour 
modéliser la hauteur en fonction de la circonférence. Puis nous cherchons la fonc- 
tion de G qui soit la plus proche possible des données selon une fonction de coût. 
Cela s’écrit 


où n représente le nombre de données à analyser et {(.) la fonction de coût. 


Remarque 

Le calcul du volume proposé ici est donc fait en deux étapes : dans la première 
on estime la hauteur et dans la seconde on utilise une formule de type « tronc de 
cône » pour calculer le volume avec la hauteur estimée et la circonférence. Une 
autre méthode de calcul de volume consiste à ne pas utiliser de formule incluant 
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la hauteur et prévoir directement le volume en une seule étape. Pour cela il faut 
calibrer le volume en fonction de la circonférence et il faut donc la mesure de 
nombreux volumes en fonction de circonférences, ce qui est très coûteux et difficile 
a réactualiser. 


1.2 Modélisation mathématique 


Nous venons de voir que le problème mathématique peut s’écrire de la façon sui- 
vante (voir équation 1.1) : 


argmin 5 Uys — f(z), 


fEG jay 


où {(.) est appelée fonction de coût et G un ensemble de fonctions données. Dans 
la suite de cette section, nous allons discuter du choix de la fonction de coût et 
de l’ensemble G. Nous présenterons des graphiques illustratifs bâtis à partir de 10 
données fictives de température et de concentration en ozone. 


1.2.1 Choix du critère de qualité et distance à la droite 


De nombreuses fonctions de coût I(.) existent, mais les deux principales utilisées 
sont les suivantes : 

— I(u) = u? coût quadratique ; 

— I(u) = |u| coût absolu. 

Ces deux fonctions sont représentées sur le graphique 1.3 : 


u 
Fig. 1.3 — Coût absolu (pointillés) et coût quadratique (trait plein). 


Ces fonctions sont positives, symétriques, elles donnent donc la méme valeur 
lorsque l’erreur est positive ou négative et s’annulent lorsque u vaut zéro. De 
manière plus générale, l n’est pas obligatoirement symétrique mais est une fonc- 
tion convexe positive et peut être vue comme la distance entre une observation 
(£i, yi) et son point correspondant sur la droite (x;, f(x;)) (voir fig. 1.4). 
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40 60 80 100 120 140 160 180 
L 


0 5 10 15 20 25 30 35 
TI2 
Fig. 1.4 — Distances à la droite : coût absolu (pointillés) et distance d’un point à 


une droite. 


Par point correspondant, nous entendons « évalué » à la même valeur x;. Nous 
aurions pu prendre comme critère à minimiser la somme des distances des points 
(ti, yi) à la droite! (voir fig. 1.4), mais ce type de distance n’entre pas dans le 
cadre des fonctions de coût puisqu’au point (x;,y;) correspond sur la droite un 
point (x!, f(x;)) d’abscisse et d’ordonnée différentes. 

Il est évident que, par rapport au coût absolu, le coût quadratique accorde une 
importance plus grande aux points qui restent éloignés de la droite ajustée, la 
distance étant élevée au carré (voir fig. 1.3). Sur l’exemple fictif, dans la classe G 
des fonctions linéaires, nous allons minimiser )>;"_, (y; — f (x:))? (coût quadratique) 
et >", lyi — f(xi)| (coût absolu). Les droites ajustées sont représentées sur le 
graphique ci-dessous : 


03 


40 60 80 100 120 140 160 180 
| 


T12 
Fig. 1.5 — 10 données fictives de température et 03, régressions avec un coût 


absolu (trait plein) et quadratique (pointillés). 


La droite ajustée avec un coût quadratique propose un compromis où aucun point 
n’est très éloigné de la droite : le coût quadratique est sensible aux points aber- 
rants qui sont éloignés de la droite. Ainsi (fig. 1.5) le premier point d’abscisse 
approximative 7°C est assez éloigné des autres. La droite ajustée avec un coût 
quadratique lui accorde une plus grosse importance que l’autre droite et passe 
relativement donc plus près de lui. En enlevant ce point (de manière imaginaire), 


1. La distance d’un point à une droite est la longueur de la perpendiculaire à cette droite 
passant par ce point. 
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la droite ajustée risque d’être très différente : le point est dit influent et le coût 
quadratique peu robuste. Le coût absolu est plus robuste et la modification d’une 
observation modifie moins la droite ajustée. Les notions de points influents, points 
aberrants, seront approfondies au chapitre 3. 

Malgré cette non-robustesse, le coût quadratique est le coût le plus souvent uti- 
lisé, pour plusieurs raisons : historique, calculabilité, propriétés mathématiques. 
En 1800, il n'existait pas d'ordinateur et l’utilisation du coût quadratique permet- 
tait de calculer explicitement les estimateurs à partir des données. À propos de 
utilisation d’autres fonctions de coût, voici ce que disait Gauss (1809) : « Mais 
de tous ces principes, celui des moindres carrés est le plus simple : avec les autres, 
nous serions conduits aux calculs les plus complexes ». En conclusion, seul le coût 
quadratique sera automatiquement utilisé dans la suite de ce livre, sauf mention 
contraire. Les lecteurs intéressés par le coût absolu peuvent consulter le livre de 
Dodge & Rousson (2004). 


1.2.2 Choix des fonctions à utiliser 


Si la classe G est trop large, par exemple la classe des fonctions continues (Co), un 
grand nombre de fonctions de cette classe minimisent le critére (1.1). Ainsi toutes 
les fonctions de la classe qui passent par tous les points (interpolation), quand 


c’est possible, annulent la quantité S77", L(y: — f(xi)). 


150 


03 
100 


50 


0 5 10 15 20 25 30 35 
T12 


Fig. 1.6 — Deux fonctions continues annulant le critère (1.1). 


La fonction continue tracée en pointillés sur la figure (fig. 1.6) semble inappropriée 
bien qu’elle annule le critère (1.1). La fonction continue tracée en traits pleins 
annule aussi le critère (1.1). D’autres fonctions continues annulent ce critère, donc 
la classe des fonctions continues est trop vaste. Ces fonctions passent par tous 
les points et c’est là leur principal défaut. Nous souhaitons plutôt une courbe, ne 
passant pas par tous les points, mais possédant un trajet harmonieux, sans trop 
de détours. Bien sûr le trajet sans aucun détour est la ligne droite et la classe G la 
plus simple sera l’ensemble des fonctions affines. Par abus de langage, on emploie 
le terme de fonctions linéaires. D’autres classes de fonctions peuvent être choisies 
et ce choix est en général dicté par une connaissance a priori du phénomène et 
(ou) par l'observation des données. 
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Ainsi une étude de régression linéaire simple débute toujours par une représen- 
tation graphique des observations (x, y), appelée nuage de points. Cette première 
représentation permet de savoir si le modèle linéaire est pertinent. Le graphique 
(fig. 1.7) représente trois nuages de points différents. 


(a) (b) (c) 
Fig. 1.7 — Exemples de nuages de points. 


Au vu du graphique, il semble inadéquat de proposer une régression linéaire pour 
les graphiques (a) et (b), le tracé présentant une forme sinusoïdale ou sigmoïdale. 
Par contre, la modélisation par une droite de la relation entre X et Y pour le 
graphique (c) semble correspondre à la réalité de la liaison. Dans la suite de ce 
chapitre, nous prendrons G = { f : f(x) = ax+b, (a,b) € R?}. 


1.3 Modélisation statistique 


Lorsque nous ajustons par une droite les données, nous supposons implicitement 
que leur relation était de la forme 


Y = Bi + Box. 


Dans l’exemple de l’ozone, nous supposons donc un modèle où la concentration 
d'ozone dépend linéairement de la température. Nous savons pertinemment que 
toutes les observations mesurées ne sont pas sur la droite. D’une part, il est irréa- 
liste de croire que la concentration de l’ozone dépend linéairement de la tempéra- 
ture et de la température seulement. D’autre part, les mesures effectuées dépendent 
de la précision de l’appareil de mesure, de l’opérateur et il peut arriver que pour 
des valeurs identiques de la variable X, nous observions des valeurs différentes 
pour Y. 

Nous supposons alors que la concentration d’ozone dépend linéairement de la tem- 
pérature mais cette liaison est perturbée par un « bruit ». Nous supposons en fait 
que les données suivent le modèle suivant : 


Y = Bi+BX +e. (1.2) 


L’équation (1.2) est appelée modèle de régression linéaire et dans ce cas précis 
modèle de régression linéaire simple. Les B;, appelés les paramètres du mo- 
déle (constante de régression et coefficient de régression), sont fixes mais inconnus, 
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et nous voulons les estimer. La quantité notée £ est appelée bruit, ou erreur, et est 
aléatoire et inconnue. 

Afin d’estimer les paramètres inconnus du modèle, nous mesurons dans le cadre 
de la régression simple une seule variable explicative ou variable exogène X et une 
variable à expliquer ou variable endogène Y. La variable X est souvent considérée 
comme non aléatoire au contraire de Y. Nous mesurons alors n observations de la 
variable X, notées x;, où à varie de 1 à n, et n valeurs de la variable à expliquer 
Y notées yi. 

Nous supposons que nous avons collecté n couples de données (x;,y;) où y; est la 
réalisation de la variable aléatoire Y;. Par abus de notation, nous confondrons la 
variable aléatoire Y; et sa réalisation, observation y;. Avec la notation €;, nous 
confondrons la variable aléatoire avec sa réalisation. Suivant le modèle (1.2), nous 
pouvons écrire 


Yi = Bi + Pots + £i, t= 1,---,n 


— les x; sont des observations connues non aléatoires et non toutes identiques ; 
— les paramètres B;, 7 = 1,2 du modèle sont inconnus ; 

— les €; sont les réalisations inconnues d’une variable aléatoire ; 

— les y; sont les observations d’une variable aléatoire. 


1.4 Estimateurs des moindres carrés 


Définition 1.1 (estimateurs des MC) k 
On appelle estimateurs des moindres carrés (MC) de Bı et B2, les estimateurs By 


et Bo obtenus par minimisation de la quantité 


n 


S(B1,B2) = D (ui — Bi — Bai)? = |Y — A11 — BX, 


i=l 
où 1 est le vecteur de IR” dont tous les coefficients valent 1. Les estimateurs peuvent 
également s’écrire sous la forme suivante : 


(61,62) = argmin S(61, Bo). 


(B1,B2)ERXR 


1.4.1 Calcul des estimateurs de 5;, quelques propriétés 


La fonction S(81, 82) est strictement convexe. Si elle admet un point singulier, 
celui-ci correspond à l’unique minimum. Annulons les dérivées partielles, nous 
obtenons un système d'équations appelées équations normales : 


as(B „ô ) n R : 
D. 2 22 li — B, — Bari) = 0, 
0S(B1,B n o 
oe = 22 til == evi 
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La premiére équation donne 


Bin + Bo X zi = So yi 
i=1 


i=1 
et nous avons un estimateur de l’ordonnée à l’origine 
Ai = Y — p27, (1.3) 


où Z = J`; a; /n. La seconde équation donne 
n n n 
à A 2 
pı X Ti + Bo X Ti = 5 TiYi. 
i=1 i=1 i=1 


En remplaçant 6ı par son expression (1.3), nous avons une première écriture de 


3 _ Digi — Dey 
Sa ae 


et en utilisant astucieusement la nullité de la somme )>(2;—Z), nous avons d’autres 
écritures pour l’estimateur de la pente de la droite 


ni Dog) _— Xi- (gi —ÿ) _ Dai — T)w (14) 
Daifti-?) Dmi-t(m-2) P(e- 3) 

Pour obtenir ce résultat, nous supposons qu’il existe au moins deux points d’abs- 

cisses différentes. Cette hypothèse notée Hı s'écrit x; A x; pour au moins deux 

individus. Elle permet d'obtenir l’unicité des coefficients estimés 61, 52. 


Une fois déterminés les estimateurs B1 et 52, nous pouvons estimer la droite de 
régression par la formule 


Ÿ = Bi + fox. 


Si nous évaluons la droite aux points x; ayant servi à estimer les paramètres, nous 
obtenons des ĝ; et ces valeurs sont appelées les valeurs ajustées. Si nous évaluons la 
droite en d’autres points, les valeurs obtenues seront appelées les valeurs prévues 
ou prévisions. Représentons les points initiaux et la droite de régression estimée. 
La droite de régression passe par le centre de gravité du nuage de points (x, y) 
(fig. 1.8) comme l’indique 1 ‘équation (1.3). 
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Fig. 1.8 — Nuage de points, droite de régression et centre de gravité. 


Nous avons réalisé une expérience et avons mesuré n valeurs (x;,y;). A partir de ces 
n valeurs, nous avons obtenu un estimateur de 5, et de 62. Si nous refaisions une 
expérience, nous mesurerions n nouveaux couples de données (x;, yi). A partir de 
ces données, nous aurions un nouvel estimateur de 3, et de 82. Les estimateurs sont 
fonction des données mesurées et changent donc avec les observations collectées 
(fig. 1.9). Les vraies valeurs de (1 et 82 sont inconnues et ne changent pas. 


Echantillon 1 Echantillon 2 Echantillon 3 


3.5 


Bo ~ 1.01 Bo & 1.49 Bo ~ 0.825 
By & 0.499 By = —0.424 By ~ 0.669 


Valeurs des estimateurs Bi et Bo pour différents échantillons 
Fig. 1.9 — Exemple de la variabilité des estimations. Le vrai modèle est Y = 
X + 0.5 +€, où € est choisi comme suivant une loi W(0,0.25). Nous avons ici 3 
répétitions de la mesure de 10 points (2;, yi), ou 3 échantillons de taille 10. Le trait 
en pointillé représente la vraie droite de régression et le trait plein son estimation. 


Le statisticien cherche en général à vérifier que les estimateurs utilisés admettent 
certaines propriétés comme 
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— un estimateur À est-il sans biais? Par définition 8 est sans biais si E() = 
8. En moyenne sur toutes les expériences possibles de taille n, l’estimateur B 
moyen sera égal a la valeur inconnue du parametre. En frangais, cela signifie 
qu’en moyenne B « tombe » sur B; 

— un estimateur B est-il de variance minimale parmi les estimateurs d’une classe 
définie ? En d’autres termes, parmi tous les estimateurs de la classe, l’estimateur 
utilisé admet-il parmi toutes les expériences la plus petite variabilité ? 
Pour cela, nous supposons une seconde hypothèse notée Hə : les erreurs sont 
centrées, de même variance (homoscédasticité) et non corrélées entre elles. Elle 
permet de calculer les propriétés statistiques des estimateurs. Hə : E(e;) = 0, 
pour i = 1,--+ ,n et Cov(s;,e;) = d;ja?, où E(e) est Pespérance de €, Cov(é;, €;) 
est la covariance entre £; et €; et d;; = 1 lorsque à = j et dj; = 0 lorsque i Æ j. 
Nous avons la premiére propriété de ces estimateurs (voir exercice 1.2). 


Proposition 1.1 (Biais des estimateurs) 
By et B2 estiment sans biais Bı et B2, c'est-à-dire que E(81) = 61 et E(B2) = b2. 


Les estimateurs Bi et Bo sont sans biais, nous allons nous intéresser à leur variance. 
Afin de montrer que ces estimateurs sont de variances minimales dans leur classe, 
nous allons d’abord calculer leur variance (voir exercices 1.3, 1.4). C’est l’objet de 
la prochaine proposition. 


Proposition 1.2 (Variances de B:1 et 82) 
Les variances et covariance des estimateurs des paramètres valent : 


2 


VA) = Sa 


Cov(61, b2) Si (zi = x)? à 
Cette proposition nous permet d’envisager la précision de l’estimation en utilisant 
la variance. Plus la variance est faible, plus l’estimateur sera précis. Pour avoir 
des variances petites, il faut avoir un numérateur petit et (ou) un dénominateur 
grand. Les estimateurs seront donc de faibles variances lorsque : 

— la variance o? est faible. Cela signifie que la variance de Y est faible et donc 
les mesures sont proches de la droite à estimer ; 

— la quantité $` (x;—7)? est grande, les mesures x; doivent être dispersées autour 
de leur moyenne ; 

— la quantité ` x? ne doit pas être trop grande, les points doivent avoir une 
faible moyenne en valeur absolue. En effet, nous avons 

ST? Da? — nz? + nz? nz? 


De D See 
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L’équation (1.3) indique que la droite des MC passe par le centre de gravité du 
nuage (x, y). Supposons 7 positif, alors si nous augmentons la pente, l’ordonnée à 
l’origine va diminuer et vice versa. Nous retrouvons donc le signe négatif pour la 
covariance entre By et Bo. 

Nous terminons cette partie concernant les propriétés par le théorème de Gauss- 
Markov qui indique que, parmi tous les estimateurs linéaires sans biais, les esti- 
mateurs des MC possédent la plus petite variance (voir exercice 1.5). 


Théoréme 1.1 (Gauss-Markov) 
Parmi les estimateurs sans biais linéaires en Y , les estimateurs 3; sont de variance 
minimale. 


1.4.2 Résidus et variance résiduelle 


Nous avons estimé B: et B2. La variance g? des €; est le dernier paramètre inconnu 
à estimer. Pour cela, nous allons utiliser les résidus : ce sont des estimateurs des 
erreurs inconnues €;. 

Définition 1.2 (Résidus) 

Les résidus sont définis par 


= Yi — hi 
où i est la valeur ajustée de y; par le modèle, c’est-à-dire ĝi = À + Bot: 
Nous avons la propriété suivante (voir exercice 1.6). 


Proposition 1.3 
Dans un modèle de régression linéaire simple, la somme des résidus est nulle. 


2 


Intéressons-nous maintenant à l’estimation de g^ et construisons un estimateur 


sans biais 6? (voir exercice 1.7) : 


Proposition 1.4 (Estimateur de la variance du bruit) 
n A 


La statistique 6? = 37, €?/(n — 2) est un estimateur sans biais de o°. 


1.4.3 Prévision 


Un des buts de la régression est de proposer des prévisions pour la variable à 
expliquer Y. Soit x,+1 une nouvelle valeur de la variable X, nous voulons prédire 
Un+1. Le modèle indique que 


Yn+1 = Bi + Botn+1i + Ent 


avec E(en+1) = 0, V(enr1) = a? et Cov(ens1,€;) = 0 pour i = 1,--- ,n. Nous 
pouvons prédire la valeur correspondante grâce au modèle estimé 


Papi = b1 + Patnr1. 
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En utilisant la notation gf, nous souhaitons insister sur la notion de prévision : 
la valeur pour laquelle nous effectuons la prévision, ici la (n + 1)°, n’a pas servi 
dans le calcul des estimateurs. Remarquons que cette quantité sera différente de 
la valeur ajustée, notée ĝ;, qui elle fait intervenir la 7° observation. 

Deux types d’erreurs vont entacher notre prévision, l’une due à la non-connaissance 
de En+1 et l’autre due à l'estimation des paramètres. 


Proposition 1.5 (Variance de la prévision g? 41) 
La variance de la valeur prévue de GP, vaut 


“ee (bo Gets) 


n 


La variance de f}; (voir exercice 1.8) nous donne une idée de la stabilité de 
l’estimation. En prévision, on s'intéresse généralement à l’erreur que l’on commet 
entre la vraie valeur à prévoir y,+1 et celle que l’on prévoit 9? 41. L'erreur peut 
être simplement résumée par la différence entre ces deux valeurs, c’est ce que nous 
appellerons l'erreur de prévision. Cette erreur de prévision permet de quantifier 
la capacité du modèle à prévoir. Nous avons sur ce thème la proposition suivante 
(voir exercice 1.8). 


Proposition 1.6 (Erreur de prévision) 
L'erreur de prévision, définie par ét = Yi — De ra satisfait les propriétés sui- 
vantes : 


E(é% 41) = 0 


Venu) = o? (1+ 2+ 


Remarque 

La variance augmente lorsque x,+1 s’éloigne du centre de gravité du nuage. Effec- 
tuer une prévision lorsque +1 est « loin » de x est donc périlleux, la variance de 
l'erreur de prévision peut alors être très grande! 


1.5 Interprétations géométriques 


1.5.1 Représentation des individus 


Pour chaque individu, ou observation, nous mesurons une valeur x; et une valeur 
Yi. Une observation peut donc être représentée dans le plan, nous dirons alors que 
R? est l’espace des observations. 3, correspond à l’ordonnée à l’origine alors que 
Bo représente la pente de la droite ajustée. Cette droite minimise la somme des 
carrés des distances verticales des points du nuage à la droite ajustée (fig. 1.10). 
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Fig. 1.10 — Représentation des individus. 
Les couples d’observations (x;,y;) avec à = 1,...,n ordonnées suivant les valeurs 


croissantes de x sont notés (x(;,,y(;)). Nous avons représenté la neuvième valeur 
de x et sa valeur ajustée G9) = Êi + Box 9) sur le graphique, ainsi que le résidu 
correspondant é(g). 


1.5.2 Représentation des variables 


Nous pouvons voir le problème d’une autre façon. Nous mesurons n couples de 
points (x;,y;). La variable X et la variable Y peuvent être considérées comme 
deux vecteurs possédant n coordonnées. Le vecteur X (respectivement Y) admet 
pour coordonnées les observations £1, %2,..., £n (respectivement y1,y2,...,Un). 
Ces deux vecteurs d’observations appartiennent au même espace R” : l’espace des 
variables. Nous pouvons donc représenter les données dans l’espace des variables. 
Le vecteur 1 est également un vecteur de R” dont toutes les composantes valent 
1. Les 2 vecteurs 1 et X engendrent un sous-espace de R” de dimension 2. Nous 
avons supposé que 1 et X ne sont pas colinéaires grâce à Hı mais ces vecteurs ne 
sont pas obligatoirement orthogonaux. Ces vecteurs sont orthogonaux lorsque 7, 
la moyenne des observations 21, %2,...,£@p, vaut zéro. 

La régression linéaire peut étre vue comme la projection orthogonale du vecteur 
Y dans le sous-espace de R” engendré par 1 et X, noté S(X) (voir fig. 1.11). 


M» 


S(X) 


Fig. 1.11 — Représentation de la projection dans l’espace des variables. 
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Les coefficients By et Bo s’interprètent comme les composantes de la projection 
orthogonale notée Y de Y sur ce sous-espace. 


Remarque 

Les vecteurs 1 et X de normes respectives yn et 4/3, x? ne forment pas une 
base orthogonale. Afin de savoir si ces vecteurs sont orthogonaux, calculons leur 
produit scalaire. Le produit scalaire est la somme du produit terme à terme des 
composantes des deux vecteurs et vaut ici 377, x; x 1 = nz. Les vecteurs forment 
une base orthogonale lorsque la moyenne de X est nulle. En effet z vaut alors zéro 
et le produit scalaire est nul. Les vecteurs n’étant en général pas orthogonaux, cela 
veut dire que Bil n’est pas la projection de Y sur la droite engendrée par 1 et que 
BX n’est pas la projection de Y sur la droite engendrée par X. Nous reviendrons 
sur cette différence au chapitre suivant. 


Un modèle, que l’on qualifiera de bon, possédera des estimations ĝ; proches des 
vraies valeurs y;. Sur la représentation dans l’espace des variables (fig. 1.11) la 
qualité peut être évaluée par l’angle 6. Cet angle est compris entre —90 degrés et 
90 degrés. Un angle proche de —90 degrés ou de 90 degrés indique un modèle de 
mauvaise qualité. Le cosinus carré de 0 est donc une mesure possible de la qualité 
du modèle et cette mesure varie entre 0 et 1. 

Le théorème de Pythagore nous donne directement que 


I¥— gal? = IY- y1]? + el? 
2g = PaL 
i=1 i=1 i=1 


SCT = SCE+SCR, 


où SCT (respectivement SCE et SCR) représente la somme des carrés totale (res- 
pectivement expliquée par le modèle et résiduelle). 


Le coefficient de détermination R? est défini par 


SCE _ |Ÿ -ÿ1|? 


R? = = 
SCT [Y= gil’ 


c’est-à-dire la part de la variabilité expliquée par le modèle sur la variabilité to- 
tale. De nombreux logiciels multiplient cette valeur par 100 afin de donner un 
pourcentage. 


Remarques 
Dans ce cas précis, R? est le carré du coefficient de corrélation empirique entre les 
x; et les y; et correspond au cosinus carré de langle à : 

— si R? = 1, le modèle explique tout, l’angle 0 vaut donc zéro, Y est dans S(X) 
c’est-à-dire que y; = P1 + Bat: ; 

— si R? = 0, cela veut dire que $` (ĝi — Y)? = 0 et donc que §; = ÿ. Le modèle 
de régression linéaire est inadapté ; 
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— si R? est proche de zéro, cela veut dire que Y est quasiment dans l’orthogonal 
de S(X), le modèle de régression linéaire est inadapté, la variable X utilisée 
n’explique pas la variable Y. 


1.6 Inférence statistique 


Jusqu’a présent, nous avons pu, en choisissant une fonction de coût quadratique, 
ajuster un modèle de régression, à savoir calculer B1 et 82. Grâce aux coefficients 
estimés, nous pouvons donc prédire, pour chaque nouvelle valeur x, +1 une valeur 
de la variable à expliquer 7? 41 qui est tout simplement le point sur la droite ajus- 
tée correspondant à l’abscisse 4,41. En ajoutant ’hypothése H2, nous avons pu 
calculer l’espérance et la variance des estimateurs. Ces propriétés permettent d’ap- 
préhender de manière grossière la qualité des estimateurs proposés. Le théorème 
de Gauss-Markov permet de juger de la qualité des estimateurs parmi une classe 
d’estimateurs : les estimateurs linéaires sans biais. Enfin ces deux hypothèses nous 
ont aussi permis de calculer l’espérance et la variance de la valeur prédite 99,1. 
Cependant, nous souhaitons en général connaître la loi des estimateurs afin de 
calculer des intervalles ou des régions de confiance ou effectuer des tests. Il faut 
donc introduire une hypothèse supplémentaire concernant la loi des £;. L'hypothèse 
Hy devient 


nad Ei ~ N(0, 9?) 

ci sont indépendants 

où W(0, a?) est une loi normale d’espérance nulle et de variance o?. Le modèle 
de régression devient le modèle paramétrique {R”, Brn, N (81 + Box, 07)}, où b1, 
b2, o? sont à valeurs dans R, R et R+ respectivement. La loi des €; étant connue, 
nous en déduisons la loi des y;. Toutes les preuves de cette section seront détaillées 
au chapitre 5. 

Nous allons envisager dans cette section les propriétés supplémentaires des estima- 
teurs qui découlent de l’hypothèse H3 (normalité et indépendance des erreurs) : 
— lois des estimateurs Ba, Bo et ô? ; 

— intervalles de confiance univariés et bivariés ; 

— loi des valeurs prévues f; et intervalle de confiance. 

Cette partie est plus technique que les parties précédentes. Afin de faciliter la 
lecture, considérons les notations suivantes : 


o = 0° (er) 65, =ô? (re) 


h = See h = Ea a 


où 6? = $` ê&/(n — 2). Cet estimateur est donné au théorème 1.4. Notons que 
les estimateurs de la colonne de gauche ne sont pas réellement des estimateurs. 
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En effet puisque g? est inconnu, ces estimateurs ne sont pas calculables avec les 
données. Cependant, ce sont eux qui interviennent dans les lois des estimateurs By 
et Bo (voir proposition 1.7). Les estimateurs donnés dans la colonne de droite sont 
ceux qui sont utilisés (et utilisables) et ils consistent simplement à remplacer o? 
par 6?. Les lois des estimateurs sont données dans la proposition suivante. 


Proposition 1.7 (Lois des estimateurs : variance connue) 
Les lois des estimateurs des MC sont : 


(i) Ê; ~ N (8;,03 ) pour j = 1,2. 


(ii) ĝ= PT oY), b= [à lave | ET] 
PI 


6? suit une loi du x? à (n — 2) degrés de liberté (ddl) (x2_»). 
(iv) (a, à) et 6? sont indépendants. 


La variance o? n’est pas connue en général, nous l’estimons par 6?. Les estimateurs 
des MC ont alors les propriétés suivantes : 


Proposition 1.8 (Lois des estimateurs : variance estimée) 


Lorsque o? est estimée par 67, nous avons 


(i) pour j = 1,2 Bj = a Eg n-2 Où Tn—2 est une loi de Student à (n — 2) ddl. 

Bj 
(i) = = BYV LB — B) ~ Fon_2; Où Fon-2 est une loi de Fisher à 2 ddl au 
no de et (n — 2) ddl au dénominateur. 


Ces derniéres propriétés nous permettent de donner des intervalles de confiance 
(IC) ou des régions de confiance (RC) des paramètres inconnus. En effet, la valeur 
ponctuelle d’un estimateur est en général insuffisante et il est nécessaire de lui 
adjoindre un intervalle de confiance. Nous parlerons d’IC quand un paramètre est 
univarié et de RC quand le paramètre est multivarié. 

Proposition 1.9 (IC et RC de niveau 1 — a pour les paramètres) 

(i) Un IC bilatéral de B; (j € {1,2}) est donné par : 


|ô, — tn-2(1 — /2)65,, Ê; + tn-2(1 — a/2)ô;,| (1.5) 


où tn—2(1—a/2) est le fractile de niveau (1—a/2) d’une loi Tn—2. 

(ii) Une RC des deux paramètres inconnus B est donnée par l'équation suivante : 
1 : a À A 

762 [nô Bi)? +2nz(B1 — B1)(82 — B2)+3 7 7 (Bo — 82)°| < fee,n-2)(1 — Q), 


f(2.n-2)(1—@) est le fractile de niveau (1—a) d’une loi de Fisher à (2,n—2) ddl. 


(iii) Un IC de o? est donné par : 


(n — 2)6? (n — 2)6? | 
Cn—2(1 — a/2)’ cn_2(a/2) 
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où Cn—2(1—a/2) représente le fractile de niveau (1—a/2) d’une loi du x? à (n—2) 
degrés de liberté. 


Remarque 

La propriété (ii) donne la RC simultanée des paramètres de la régression 6 = 
(31, 82)’, appelée ellipse de confiance grâce à la loi du couple. Au contraire (i) 
donne l’IC d’un paramètre sans tenir compte de la corrélation entre À et ĝa. Il 
est donc délicat de donner une RC du vecteur (61, 82) en juxtaposant les deux IC. 


B2 


2.5 30 35 40 


10 15 2.0 


0 10 20 30 40 50 60 
Bi 


Fig. 1.12 — Comparaison entre ellipse et rectangle de confiance. 


Un point peut avoir chaque coordonnée dans son IC respectif mais ne pas appar- 
tenir à l’ellipse de confiance. Le point A est un exemple de ce type de point. A 
contrario, un point peut appartenir à la RC sans qu'aucune de ses coordonnées 
mappartienne à son IC respectif (le point B). L’ellipse de confiance n’est pas tou- 
jours calculée par les logiciels de statistique. Le rectangle de confiance obtenu en 
juxtaposant les deux intervalles de confiance peut être une bonne approximation 
de l’ellipse si la corrélation entre À1 et B2 est faible(fig. 1.12). 


Nous pouvons donner un intervalle de confiance de la droite de régression. 


Proposition 1.10 (IC pour E(y;)) 
Un IC de E(yi) = 61 + Box; est donné par : 


x ve (zi =T T)? 
fo = tn-2(1 a/2)é Ts _ z)? sr i (1.6) 
En calculant les IC pour tous les points de la droite, nous obtenons une hyperbole 
de confiance. Lorsque x; est proche de x, le terme dominant de la variance est 1/n, 
et dès que x; s’éloigne de z, le terme dominant est le terme au carré. Nous avons 
les mêmes résultats que ceux obtenus à la section (1.4.3). Enongons le résultat 
permettant de calculer un intervalle de confiance pour une valeur prévue : 


Proposition 1.11 (IC pour Yn+1) 
Un IC de yn+1 est donné par : 


ii tn-l- ZA L + sie LE | (1.7) 
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Plus le point à prévoir est éloigné de x, plus la variance de la prévision et donc 
VIC seront grands. Intuitivement, plus une observation est éloignée du centre de 
gravité, moins nous avons d’information sur elle. Lorsque x41 est à l’intérieur 
de l’étendue des x;, le terme dominant de la variance est la valeur 1 et donc la 
variance est relativement constante. Lorsque x,+1 est en dehors de l’étendue des 
zi, le terme dominant peut être le terme au carré, et la forme de l'intervalle sera 
a nouveau une hyperbole. 


1.7 Exemples 


La concentration en ozone 


Nous allons traiter les 50 données journalières de concentration en ozone. La va- 
riable à expliquer est la concentration en ozone notée 03 et la variable explicative 
est la température notée T12. 


e Nous commençons par représenter les données. 


> ozone <- read.table("ozone_simple.txt", header = T, sep = ";") 
> plot(03~T12, data=ozone, xlab="T12", ylab="03") 
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Fig. 1.13 — 50 données journalières de T12 et 03. 
Ce graphique permet de vérifier visuellement si une régression linéaire est perti- 
nente. Autrement dit, il suffit de regarder si le nuage de points s’étire le long d’une 
droite. Bien qu’ici il semble que le nuage s’étire sur une première droite jusqu’à 22 
ou 23 degrés C puis selon une autre droite pour les hautes valeurs de températures, 
nous pouvons tenter une régression linéaire simple. 
e Nous effectuons ensuite la régression linéaire, c’est-à-dire la phase d’estimation. 


> reg <- 1m(03-Ti2, data=ozone) 


et analysons les résultats 
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> summary (reg) 


Call: 
lm(formula = 03 ~ T12) 
Residuals: 
Min 1Q Median 3Q Max 


-45.256 -15.326 -3.461 17.634 40.072 


Coefficients 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 31.4150 13.0584 2.406 0.0200 * 
T12 2.7010 0.6266 4.311 8.04e-05 *** 
Signif. codes: 0 ‘*x%xx’ 0.001 ‘**’ 0.01 ‘x? 0.05 ‘.? 0.14 ‘ ? 1 
Residual standard error: 20.5 on 48 degrees of freedom 
Multiple R-Squared: 0.2791, Adjusted R-squared: 0.2641 


F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-05 


Les sorties du logiciel donnent une matrice (sous le mot Coefficients) qui com- 
porte pour chaque paramètre (chaque ligne) 5 colonnes. La première colonne 
contient les estimations des paramètres (colonne Estimate), la seconde les écarts- 
types estimés des paramètres (Std. Error). Dans la troisième colonne (t value) 
figure la valeur observée de la statistique de test d’hypothése Hg : B; = 0 contre 
Hı : 8; 0. La quatrième colonne (Pr(>|t|)) contient la probabilité critique (ou 
« p-value ») qui est la probabilité, pour la statistique de test sous Ho, de dépasser 
la valeur estimée. Enfin la dernière colonne est une version graphique du test : *** 
signifie que le test rejette Hp pour des erreurs de première espèce supérieures ou 
égales à 0.001 ; ** signifie que le test rejette Ho pour des erreurs de première espèce 
supérieures ou égales à 0.01; * signifie que le test rejette Hp pour des erreurs de 
première espèce supérieures ou égales à 0.05, . signifie que le test rejette Ho pour 
des erreurs de première espèce supérieures ou égales à 0.1. 

Nous rejetons l'hypothèse Hg pour les deux paramètres estimés au niveau a = 5 %. 
Dans le cadre de la régression simple, cela permet d’effectuer de manière rapide 
un choix de variable pertinente. En toute rigueur, si pour les deux paramètres 
l'hypothèse Hg est acceptée, il est nécessaire de reprendre un modèle en supprimant 
le paramètre dont la probabilité critique est la plus proche de 1. Dans ce cas-là, 
dès la phase de représentation des données, de gros doutes doivent apparaître sur 
l'intérêt de la régression linéaire simple. 

Le résumé de l’étape d’estimation fait figurer l’estimation de o qui vaut ici 20.5 
ainsi que le nombre n — 2 = 48 qui est le nombre de degrés de liberté associés, par 
exemple, aux tests d’hypothése Ho : B; = 0 contre Hı : 6; Æ 0. 

La valeur du R? est également donnée, ainsi que le R? ajusté noté R2 (voir dé- 
finition 2.5 p. 43). La valeur du R? est faible (R? = 0.28) et nous retrouvons la 
remarque effectuée à propos de la figure (fig. 1.13) : une régression linéaire simple 
n’est peut-être pas adaptée ici. 

La dernière ligne, surtout utile en régression multiple, indique le test entre le mo- 
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dèle utilisé et le modèle n’utilisant que la constante comme variable explicative. 
Nous reviendrons sur ce test au chapitre 5. 


e Afin d’examiner la qualité du modèle et des observations, nous traçons la droite 
ajustée et les observations. Comme il existe une incertitude dans les estimations, 
nous traçons aussi un intervalle de confiance de la droite (à 95 %). 


plot (03~T12, data=ozone) 

T12 <- seq(min(ozone[,"T12"]), max(ozone[,"T12"]), length = 100) 
grille <- data.frame(T12) 

ICdte <- predict(reg, new=grille, interval="conf", level=0.95) 
matlines(grille$T12, cbind(ICdte), lty = c(1,2,2), col = 1) 


VVVV WV 


03 


30 


T12 
Fig. 1.14 — 50 données journalières de T12 et 03 et l'ajustement linéaire obtenu. 


Ce graphique permet de vérifier visuellement si la régression est correcte, c’est-a- 
dire d’analyser la qualité d’ajustement du modèle. Nous constatons que les obser- 
vations qui possèdent de faibles valeurs ou de fortes valeurs de température sont 
au-dessus de la droite ajustée (fig. 1.14) alors que les observations qui possèdent 
des valeurs moyennes sont en dessous. Les erreurs ne semblent donc pas identique- 
ment distribuées. Pour s’en assurer il serait possible de tracer les résidus. Enfin 
Vintervalle de confiance à 95 % est éloigné de la droite. Cet intervalle peut être 
vu comme « le modèle peut être n’importe quelle droite dans cette bande ». Il en 
découle que la qualité de l'estimation ne semble pas être très bonne. 


e Dans une optique de prévision, il est nécessaire de s'intéresser à la qualité de 
prévision. Cette qualité peut être envisagée de manière succincte grace à l'intervalle 
de confiance des prévisions. Afin de bien le distinguer de celui de la droite, nous 
figurons les deux sur le même graphique (fig. 1.15). 


> plot(03~T12, data = ozone, ylim = c(0,150)) 
> T12 <- seq(min(ozone[,"T12"]), max(ozone[,"T12"]), length = 100) 
> grille <- data.frame(T12) 
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> ICdte <- predict(reg, new=grille, interval="conf", level=0.95) 
> ICprev <- predict(reg, new=grille, interval="pred", level=0.95) 
> matlines(T12, cbind(ICdte,ICprev[,-1]), lty=c(1,2,2,3,3), col=1) 
> legend("topleft", 1ty=2:3, c("Y","E(Y)")) 


03 


10 15 20 25 30 
T12 
Fig. 1.15 — Droite de régression et intervalles de confiance pour Y et pour E(Y). 


Afin d'illustrer les équations des intervalles de confiance pour les prévisions et 
la droite ajustée (équations (1.6) et (1.7), p. 21), nous remarquons bien évidem- 
ment que l'intervalle de confiance des prévisions est plus grand que l'intervalle 
de confiance de la droite de régression. L’intervalle de confiance de la droite de 
régression admet une forme hyperbolique. 


e Si nous nous intéressons au rôle des variables, nous pouvons calculer les inter- 
valles de confiance des paramètres via la fonction confint. Par défaut, le niveau 
est fixé à 95 %. 


> IC <- confint(reg, level = 0.95) 
> IC 

26 % Wald 7 
(Intercept) 5.159232 57.67071 
T12 1.441180 3.96089 


LIC à 95 % sur l’ordonnée à l’origine est étendu (52.5). Cela provient des erreurs 
(Vestimateur de ø vaut 20.5), mais surtout du fait que les températures sont en 
moyenne très loin de 0. Cependant, ce coefficient ne fait pas très souvent l’objet 
d'interprétation. L'autre IC à 95 % est moins étendu (2.5). Nous constatons qu’il 
semble exister un effet de la température sur les pics d’ozone. 


e Ilest conseillé de tracer la région de confiance simultanée des deux paramètres 
et de comparer cette région aux intervalles de confiance obtenus avec le même degré 
de confiance. Cette comparaison illustre uniquement la différence entre intervalle 
simple et région de confiance. En général, l'utilisateur de la méthode choisit l’une 
ou l’autre forme. Pour cette comparaison, nous utilisons les commandes suivantes : 
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> library(ellipse) 

> plot(ellipse(reg, level=0.95), type = "1", xlab = "", ylab = "") 
> points (coef (reg) [1], coef (reg) [2], pch = 3) 

> dims Gl 2,21) |, Wee eG,2,2 i 1)i),, der = 2) 
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Fig. 1.16 — Région de confiance simultanée des deux paramètres. 


Les axes de l’ellipse ne sont pas parallèles aux axes du graphique, les deux estima- 
teurs sont corrélés. Nous retrouvons que la corrélation entre les deux estimateurs 
est toujours négative (ou nulle), le grand axe de l’ellipse ayant une pente négative. 
Nous observons bien sûr une différence entre le rectangle de confiance, juxtaposi- 
tion des deux intervalles de confiance et l’ellipse. 


La hauteur des eucalyptus 


Nous allons modéliser la hauteur des arbres en fonction de leur circonférence. 
e Nous commençons par représenter les données. 


> eucalypt <- read.table("eucalyptus.txt", header = T, sep = ";") 
> plot(ht~circ, data = eucalypt, xlab = "circ", ylab = "ht") 


+ 
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Fig. 1.17 — Représentation des mesures pour les n = 1429 eucalyptus mesurés. 
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Une régression simple semble indiquée, les points étant disposés grossièrement le 
long d’une droite. Trois arbres ont des circonférences élevées supérieures à 70 cm. 


e Nous effectuons ensuite la régression linéaire, c’est-à-dire la phase d’estimation... 


> reg <- Im(ht~circ, data = eucalypt) 

> summary (reg) 

Call: 

lm(formula = ht ~ circ, data = eucalypt) 


Residuals: 
Min 1Q Median 3Q Max 
-4.76589 -0.78016 0.05567 0.82708 3.69129 


Coefficients: 

Estimate Std. Error t value Pr(>|t]) 
(Intercept) 9.037476 0.179802 50.26 <2e-16 *** 
circ 0.257138 0.003738 68.79 <2e-16 *** 


Signif. codes: 0 ?*##? 0.001 >x) 0.01 ’*’ 0.05 7.: 0.1%? 1 


Residual standard error: 1.199 on 1427 degrees of freedom 
Multiple R-Squared: 0.7683, Adjusted R-squared: 0.7682 
F-statistic: 4732 on 1 and 1427 DF, p-value: < 2.2e-16 


Nous retrouvons comme sortie la matrice des informations sur les coefficients, 
matrice qui comporte 4 colonnes et autant de lignes que de coefficients (voir 1.7, 
p. 23). Les tests de nullité des deux coefficients indiquent qu’ils semblent tous deux 
significativement non nuls (quand l’autre coefficient est fixé à la valeur estimée). 
Le résumé de l’étape d’estimation fait figurer l’estimation de ø qui vaut ici 1.199 
ainsi que le nombre n — 2 = 1427 qui est le nombre de degrés de liberté associés, 
par exemple, aux tests d’hypothése Ho : B; = 0 contre Hı : 6; Æ 0. 

La valeur du R? est également donnée, ainsi que le R?. La valeur du R? est élevée 
(R? = 0.7683) et nous retrouvons la remarque déjà faite (fig. 1.17) : une régression 
linéaire simple semble adaptée. 

Le test F entre le modèle utilisé et le modèle n’utilisant que la constante comme 
variable explicative indique que la circonférence est explicative et que l’on repousse 
le modèle n’utilisant que la constante comme variable explicative au profit du mo- 
dèle de régression simple. Ce test n’est pas très utile ici car il équivaut au test de 
nullité Ho : 62 = 0 contre Hı : 62 # 0. De plus, dès la première étape, nous avions 
remarqué que les points s’étiraient le long d’une droite dont le coefficient directeur 
était loin d’être nul. 


e Afin d'examiner la qualité du modèle et des observations, nous traçons la droite 
ajustée et les observations. Comme il existe une incertitude dans les estimations, 
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nous traçons aussi un intervalle de confiance de la droite (à 95 %). 


> plot(ht-circ, data = eucalypt, pch = "+", col = "grey60") 

> grille <- data.frame(circ = seq(min(eucalypt[,"circ"]), 

+ max(eucalypt[,"circ"]), length = 100)) 

> ICdte <- predict(reg, new=grille, interval="confi", level=0.95) 
> matlines(grille$circ, ICdte, lty = c(1,2,2), col = 1) 


30 40 50 60 70 
circ 


Fig. 1.18 — Données de circonférence/hauteur et ajustement linéaire obtenu. 


La figure (1.18) permet de vérifier visuellement si une régression est correcte, 
c’est-à-dire de constater la qualité d'ajustement de notre modèle. Nous constatons 
que les observations sont globalement bien ajustées par le modèle, mais les faibles 
valeurs de circonférences semblent en majorité situées en dessous de la courbe. Ceci 
indique qu’un remplacement de cette droite par une courbe serait une amélioration 
possible. Peut-être qu’un modèle de régression simple du type 


ht = (9+ 6ivcire+e, 


serait plus adapté. Remarquons aussi que les 3 circonférences les plus fortes (su- 
périeures à 70 cm) sont bien ajustées par le modèle. Ces 3 individus sont donc 
différents en termes de circonférence mais bien ajustés par le modèle. 


Enfin, l'intervalle de confiance à 95 % est proche de la droite. Cet intervalle peut 
être vu comme « le modèle peut être n’importe quelle droite dans cette bande ». Il 
en découle que la qualité de l’estimation semble étre trés bonne, ce qui est normal 
car le nombre d’individus (i.e. le nombre d’arbres) est très élevé et les données 
sont bien réparties le long d’une droite. 


e Dans une optique de prévision, il est nécessaire de s’intéresser à la qualité 
de prévision. Cette qualité peut être envisagée de manière succincte grâce aux 
intervalles de confiance, de la droite ajustée et des prévisions. 
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plot(ht~circ, data = eucalypt, pch = "+", col = "grey60") 
circ <- seq(min(eucalypt[,"circ"]), 

max(eucalypt[,"circ"]), len = 100) 
grille <- data.frame(circ) 


vVv+VvV Vv 


> ICdte <- predict(reg, new=grille, interval="conf", level=0.95) 
> ICprev <- predict(reg, new=grille, interval="pred", level=0.95) 
> matlines(circ, cbind(ICdte,ICprev[,-1]) ,lty=c(1,2,2,3,3), col=1) 
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Fig. 1.19 — Droite de régression et intervalles de confiance pour Y et pour E(Y). 


Rien de notable sur l’intervalle de prévision, mis à part le fait qu’il est nécessaire 
de bien distinguer l'intervalle de confiance de la droite et de la prévision. 


1.8 Exercices 


Exercice 1.1 (Questions de cours) 
1) Lors d'une régression simple, si le R? vaut 1, les points sont alignés : 
A. non, 
B. oui, 
C. pas obligatoirement. 
2) La droite des MC d'une régression simple passe par le point (x, y) : 
A. toujours, 
B. jamais, 
C. parfois. 
3) Nous avons effectué une régression simple et recevons une nouvelle observation xy. 
Nous calculons la prévision correspondante n, sa variance est minimale lorsque 
A. zn = 0, 
B. tn = 2, 
C. aucun rapport. 
4) Le vecteur Y est orthogonal au vecteur des résidus estimés é : 
A. toujours, 
B. jamais, 
C. parfois. 
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Exercice 1.2 (Biais des estimateurs) 
Calculer le biais de 82 et By. 


Exercice 1.3 (Variance des estimateurs) 
Calculer la variance de 32 puis la variance de 51 (indice : calculer Cov(y, B2)). 


Exercice 1.4 (Covariance de 1 et ĝ2) 
Calculer la covariance entre 51 et Bo. 


Exercice 1.5 ({Théoréme de Gauss-Markov) 
Z f4 x a n . a 
Démontrer le théorème de Gauss-Markov en posant 32 = __, Aiÿi, un estimateur linéaire 
i=1 at 
quelconque (indice : trouver deux conditions sur la somme des A; pour que f2 ne soit pas 
biaisé, puis calculer la variance en introduisant (2). 


Exercice 1.6 (Somme des résidus) 
Montrer que, dans un modèle de régression linéaire simple, la somme des résidus est nulle. 


Exercice 1.7 (Estimateur de la variance du bruit) 

x Ż . ee . Tr 22 n 22 
Montrer que, dans un modèle de régression linéaire simple, la statistique 6“ = Ja êi /(n— 
2) est un estimateur sans biais de o^. 


Exercice 1.8 (Prévision) 
; ap : : Ds AP 
Calculer la variance de #,,, puis celle de l'erreur de prévision €, 41- 


Exercice 1.9 (R? et coefficient de corrélation) 
Montrer que le R? est égal au carré du coefficient de corrélation empirique entre les x; et yi. 


Exercice 1.10 (Les arbres) 

Nous souhaitons exprimer la hauteur y d'un arbre d'une essence donnée en fonction de son 
diamètre x à 1 m 30 du sol. Pour ce faire, nous avons mesuré 20 couples « diamètre-hauteur ». 
Nous avons effectué les calculs suivants : 


20 
x = 34.9 n (a; — Z)? = 28.29 J= 18.34 
i=1 
20 20 
IN ya ass SY ee Ge) = 6.26 
i = al 20 L A RS 


1) On note ÿ — Bi + Box, la droite de régression. Donner l'expression de Bo en fonction 
des statistiques élémentaires ci-dessus. Calculer 6, et Bo. 

2) Donner et commenter une mesure de la qualité de l'ajustement des données au modèle. 
Exprimer cette mesure en fonction des statistiques élémentaires. 

3) Cette question traite des tests qui seront vus au chapitre 5. Cependant, cette question 
peut être résolue grâce à la section exemple. Les estimations des écarts-types de Bi et de Bo 
donnent Gg, = 1.89 et 63, = 0.05. Testez Ho : 8; = 0 contre Hi : 6; #0 pour j = 0, 1. 
Pourquoi ce test est-il intéressant dans notre contexte ? Que pensez-vous du résultat ? 


Exercice 1.11 (Modèle quadratique) 

Au vu du graphique 1.13, nous souhaitons modéliser l'ozone par la température au carré. 
1) Ecrire le modèle et estimer les paramètres. 
2) Comparer ce modèle au modèle linéaire classique. 


Chapitre 2 


La régression linéaire 
multiple 


2.1 Introduction 


La modélisation de la concentration d’ozone dans l’atmosphère évoquée au chapitre 
1 est relativement simpliste. En effet, des variables météorologiques autres que la 
température peuvent expliquer cette concentration, par exemple le rayonnement, 
la précipitation ou encore le vent qui déplace les masses d’air. L’association Air 
Breizh mesure ainsi en méme temps que la concentration d’ozone les variables 
météorologiques susceptibles d’avoir une influence sur celle-ci. Voici quelques-unes 
de ces données : 


Individu 03 | T12 Vx | Ne12 
1 63.6 | 13.4 | 9.35 
89.6 15 5.4 
79 7.9 | 19.3 
81.2 | 13.1 | 12.6 
88 | 14.1 | -20.3 


oR Wh 
aN © À —J 


Tableau 2.1 — 5 données journalières. 


La variable Vx est une variable synthétique représentant le vent. Le vent est nor- 
malement mesuré en degré (direction) et mètre par seconde (vitesse). La variable 
créée est la projection du vent sur l’axe est-ouest, elle tient compte de la direction 
et de la vitesse. La variable Ne12 représente la nébulosité mesurée à 12 heures. 
Pour analyser la relation entre la température (T12), le vent (Vx), la nébulosité à 
midi (Ne12) et l’ozone (03), nous allons chercher une fonction f telle que 


03; ye f(T12;, Vx;, Ne12;). 
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Afin de préciser le sens de à, il faut définir un critère positif quantifiant la qualité 
de l’ajustement de la fonction f aux données. Cette notion de coût permet d’ap- 
préhender de manière aisée les problèmes d’ajustement économique dans certains 
modèles. Minimiser un coût nécessite la connaissance de l’espace sur lequel on mi- 
nimise, donc la classe de fonctions G dans laquelle nous supposerons que se trouve 
la vraie fonction inconnue. 

Le problème mathématique peut s’écrire de la façon suivante : 


argmin X` La fasse, de), 


feg Ga 


où n représente le nombre de données à analyser et {(.) est appelée fonction de 
coût. La fonction de coût sera la même que celle utilisée précédemment, c’est-à-dire 
le coût quadratique. En ce qui concerne le choix de la classe G, nous utiliserons 
pour commencer la classe des fonctions linéaires : 


GI : fa, itp) =) Bjt;j avec bj E R, j € Dik 


2.2 Modélisation 


Le modèle de régression multiple est une généralisation du modèle de régression 
simple lorsque les variables explicatives sont en nombre fini. Nous supposons donc 
que les données collectées suivent le modèle suivant : 


Yi = Dita + Patio +--+ + Bptip + Ei, i=1,...,n (2.1) 


où 

— les x;; sont des nombres connus, non aléatoires. La variable x;1 peut valoir 1 
pour tout 7 variant de 1 à n. Dans ce cas, 31 représente la constante (intercept 
dans les logiciels anglo-saxons). En statistiques, cette colonne de 1 est presque 
toujours présente ; 

— les paramètres à estimer 6; du modèle sont inconnus ; 

— les €; sont des variables aléatoires inconnues. 
En utilisant l'écriture matricielle de (2.1), nous obtenons la définition suivante : 


Définition 2.1 (Modèle de régression multiple) 
Un modèle de régression linéaire est défini par une équation de la forme 


Ynx1 = Xnxp Bpx1 + Enx1: (2.2) 


ou : 

e Y est un vecteur aléatoire de dimension n ; 

e X est une matrice de taille n x p connue, appelée matrice du plan d’expérience, 
X est la concaténation des p variables X; : X = (X4|Xo|...|Xp). Nous noterons 
la à° ligne du tableau X par le vecteur ligne x), = (ti, ..., Zip); 

e 5 est le vecteur de dimension p des paramètres inconnus du modèle ; 

e £ est le vecteur centré, de dimension n, des erreurs. 
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Nous supposons que la matrice X est de plein rang. Cette hypothése sera notée 
Hı. Comme, en général, le nombre d’individus n est plus grand que le nombre de 
variables explicatives p, le rang de la matrice X vaut p. 
La présentation précédente revient à supposer que la fonction liant Y aux variables 
explicatives X est un hyperplan représenté ci-dessous (fig. 2.1). 


© 
m 


2 3 4 
(a) Surface. (b) Contour. 
Fig. 2.1 — Représentation géométrique de la relation Y = 3X; + 4X2. 


un 


Il est naturel dans nombre de problèmes de penser que des interactions existent 
entre les variables explicatives. Dans l’exemple de l’ozone, nous pouvons penser 
que la température et le vent interagissent. Pour modéliser cette interaction, nous 
écrivons en général un modèle avec un produit entre les variables explicatives qui 
interagissent. Ainsi, pour deux variables, nous avons la modélisation suivante : 


ie le: 


5 n. 


Yi = Bit + Bowing + b3Li1Ti2 + Ei, 


Les produits peuvent s'effectuer entre deux variables définissant des interactions 
d’ordre 2, entre trois variables définissant des interactions d’ordre 3, etc. D’un 
point de vue géométrique, cela donne (fig. 2.2) : 
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(a) Surface. 


Fig. 2.2 — Représentation géométrique de la relation Y = X, + 3X2 + 6X1 X2. 


Cependant, ce type de modélisation rentre parfaitement dans le cadre de la régres- 
sion multiple. Les variables d'interaction sont des produits de variables connues et 
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sont donc connues. Dans l’exemple précédent, la troisième variable explicative X3 
sera tout simplement le produit X1 Xə et nous retrouvons la modélisation proposée 
à la section précédente. 

De même, d’autres extensions peuvent être utilisées comme le modèle de régression 
polynomial. En reprenant notre exemple à deux variables explicatives X; et Xo, 
nous pouvons proposer le modèle polynomial de degré 2 suivant : 


Yi = Bit + Patio + Batatis + Bax + Bsth + Ei, i=l,... ,n. 


Ce modèle peut être remis dans la formulation de la section précédente en posant 
X3 = Xı Xə, X4 = X? et X5 = X2. L’hypersurface ressemble alors à (fig. 2.3) : 
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(a) Surface. (b) Contour. 
Fig. 2.3 — Représentation de la relation Y = 10X; + 8X2 — 6X1 Xə +2 X? + 4X2. 


En conclusion, nous pouvons considérer que n’importe quelle transformation connue 
et fixée des variables explicatives (logarithme, exponentielle, produit, etc.) rentre 
dans le modèle de régression multiple. Ainsi la transformée d’une variable expli- 
cative X1 par la fonction log par exemple devient X1 = log(X1) et le modèle reste 
donc un modèle de régression multiple. Par contre une transformation comme 
exp{—r(X1 — k)} qui est une fonction non linéaire de deux paramètres inconnus r 
et k ne rentre pas dans ce cadre. En effet, ne connaissant pas r et k, il est impossible 
de calculer exp{—r(X1 — k)} et donc de la noter X1. Ce type de relation est traité 
dans Antoniadis et al. (1992). Ainsi un modèle linéaire ne veut pas forcément dire 
que le lien entre variables explicatives et la variable à expliquer est linéaire mais 
que le modèle est linéaire en les paramètres bj. 


2.3 Estimateurs des moindres carrés 


Définition 2.2 (Estimateur des MC) 
On appelle estimateur des moindres carrés (noté MC) 8 de B la valeur suivante : 


2 


n p 
B = argmin Yyi— Bjr | = argmin|Y — XB|/?. 
Bay Bp 2 ‘ 2 Tz BeRP 
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Théorème 2.1 (Expression de l’estimateur des MC) 
Si Vhypothése Hı est vérifiée, l’estimateur des MC B de B vaut 


B= (X' X) X'Y. 


La section suivante est entièrement consacrée à ce résultat. 


2.3.1 Calcul de ĝ 


Il est intéressant de considérer les vecteurs dans l’espace des variables (R” ) (fig. 2.4). 
Ainsi, Y, vecteur colonne, définit dans R” un vecteur OY d’origine O et d’ex- 
trémité Y. Ce vecteur a pour coordonnées (y1,:--,Yn). La matrice X du plan 
d'expérience est formée de p vecteurs colonnes. Chaque vecteur X; définit dans 
R” un vecteur OX; d’origine O et d’extrémité X;. Ce vecteur a pour coordon- 
nées (21;,°-+ , nj). Ces p vecteurs linéairement indépendants (hypothèse #1) en- 
gendrent un sous-espace vectoriel de R”, noté dorénavant S(X), de dimension p. 


S(X) 
Fig. 2.4 — Représentation dans l’espace des variables. 


Cet espace S(X), appelé image de X (voir annexe A), est engendré par les colonnes 
de X. Il est parfois appelé espace des solutions. L’espace orthogonal à S(X), noté 
S(X)+, est souvent appelé espace des résidus. Tout vecteur vY de SX) s'écrit de 
façon unique sous la forme suivante : 


= = 
T =a Xi +- + ap X, = Xa, 


où a = [a1,--- , al’. Selon le modèle (2.2), le vecteur Y est la somme d’un élément 
de S(X) et d’un bruit, élément de R”, qui n’a aucune raison d’appartenir à S(X). 
Minimiser S(6) revient à chercher un élément de S(X) qui soit le plus proche de 
Y, au sens de la norme euclidienne classique. Par définition, cet unique élément 
noté Ÿ est appelé projection orthogonale de Y sur S(X) noté 


Ÿ = PxY=XÔĜ. 


La matrice Px est la matrice de projection orthogonale sur S(X) et B est lesti- 
mateur des moindres carrés de 8. Le vecteur Y contient les valeurs ajustées de Y 
par le modèle. 
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Dans la littérature anglo-saxonne, cette matrice est souvent notée H et est appelée 
« hat matrix » car elle met des « hat » sur Y. Par souci de cohérence de l’écriture, 
nous noterons h;; l’élément courant (i, j) de Px. 


e Calcul de B par projection : 

Trois possibilités de calcul de B sont proposées. 

— La première consiste à connaître la forme analytique de Px. La matrice de 
projection orthogonale sur S(X) est donnée par : 


Px = X(X' X); EX 
et, comme PxY = X{, nous obtenons Ê = (X’X)~LX’Y. 


— La deuxième méthode utilise le fait que le vecteur Y de R” se décompose de 
façon unique en une partie sur G(X) et une partie sur S(X)+, cela s'écrit : 


Y = PxY + (I — Px)Y. 


La quantité (1— Px)Y étant un élément de $(X)+ est orthogonale à tout élément 
v de S(X). Rappelons que S(X) est l’espace engendré par les colonnes de X, 
c’est-à-dire que toutes les combinaisons linéaires de variables X1,- -+ , Xp sont 
éléments de S(X) ou encore que, pour tout œ € R?, nous avons Xa € S(X). Les 
deux vecteurs v et (I — Px)Y étant orthogonaux, le produit scalaire entre ces 
deux quantités est nul, soit : 


Ww, (I —-Px)Y) = 0 Wwe$S(X) 
(Xa, (I — Px)Y) = 0 VaeR? 
al X'(I—Px)Y = 0 
X'Y = X'PxY avec PxY=XB 
X'Y = X'XB X de rang plein 
B = (X'X) !X"Y. 


Nous retrouvons Py = X(X'X)~!X’, matrice de projection orthogonale sur 
l’espace engendré par les colonnes de X. Les propriétés caractéristiques d’un pro- 
jecteur orthogonal (P& = Px et P} = Px) sont vérifiées. 


— La dernière façon de procéder consiste à écrire que le vecteur (I — Px)Y est 
orthogonal à chacune des colonnes de X : 
(X,Y XP) = 0 

eS x. 

(XpY- XÊ) = 0 


Soit Px = X(X’X)~1X’ la matrice de projection orthogonale sur S(X), la ma- 
trice de projection orthogonale sur S(X)+ est Px. = (I — Px). 
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e Calcul matriciel 
Nous pouvons aussi retrouver le résultat précédent de maniére analytique en écri- 
vant la fonction à minimiser S(8) : 


S(8) = |Y - X£]? 
= Y'Y+BX'XB-Y'XB-BX'Y 
= Y'Y+BX'XB-2Y'XB. 


Une condition nécessaire d’optimum est que la dérivée première par rapport à 8 
s’annule. Or la dérivée s’écrit comme suit (voir annexe A) : 


ase ; ; 
i dar da 


d’où, s’il existe, l’optimum, noté Ê, vérifie 
—2X'Y +2X'XB = 0 


c’est-à-dire B = (X'X) 1X'Y. 
Pour s’assurer que ce point p est bien un minimum strict, il faut que la dérivée 
seconde soit une matrice définie positive. Or la dérivée seconde s’écrit 


(8) 
s+ = 2X'X 

Ob? f 
et X est de plein rang donc X’X est inversible et n’a pas de valeur propre nulle. 
La matrice X'X est donc définie. De plus Vz € R?, nous avons 


J2X'Xz = UXz, X2 =2|X2|? > 0 


(X'X) est donc bien définie positive et Ê est bien un minimum strict. 


2.3.2 Interprétation 


Nous venons de voir que Y est la projection de Y sur le sous-espace engendré par 
les colonnes de X. Cette projection existe et est unique même si l’hypothèse Hı 
n’est pas vérifiée. L'hypothèse Hı nous permet en fait d’obtenir un B unique. Dans 
ce cas, s'intéresser aux coordonnées de Ê a un sens, et ces coordonnées sont les 
coordonnées de Ÿ dans le repère X1,--- , Xp. Ce repère n’a aucune raison d’être 
orthogonal et donc B; n’est pas la coordonnée de la projection de Y sur X;. Dans 
ce cas (usuel en pratique), effectuer des régressions simples pour estimer chaque 3; 
ne donnera bien évidemment pas les mémes résultats qu’effectuer une régression 
multiple. En effet, nous avons 


PxY = Bi Xi +--+ 8)Xp. 
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Calculons la projection de Y sur X;. 


Py,Y = Px,PxY 
= Py, Px,X1+---+ ByPx,Xp 
= Âi X; +Y BiPx, Xi. 
iAj 


Cette dernière quantité est différente de B;X; sauf si X; est orthogonal à toutes 
les autres variables. L'exercice 2.8 illustre ces différences. 

Lorsque toutes les variables sont orthogonales deux à deux, il est clair que (X’X) 
est une matrice diagonale 


(X'X) = diag(||X1||?,--- Xal’). (2.3) 


2.3.3 Quelques propriétés statistiques 


Le statisticien cherche à vérifier que les estimateurs des MC que nous avons 
construits admettent de bonnes propriétés au sens statistique. Dans notre cadre 
de travail, cela peut se résumer en deux parties : l’estimateur des MC est-il sans 
biais et est-il de variance minimale dans sa classe d’estimateurs ? 

Pour cela, nous supposons une seconde hypothèse, notée #2, indiquant que les 
erreurs sont centrées, de même variance (homoscédasticité) et non corrélées entre 
elles. L'écriture de cette hypothèse est Hə : E(e) = 0, Ye = o? In, avec I, la 
matrice identité d'ordre n. Cette hypothèse nous permet de calculer 


E(B) = E((X'X) !X'Y)=(X'X) IX'E(Y)=(X'X) IX'XB = L. 
L’estimateur des MC est donc sans biais. Calculons sa variance 
VUS) = VUX'XYHX'Y) = X) IX VOIX CE X) Lo (XX). 


Proposition 2.1 (Ê sans biais) 
L’estimateur B des MC est un estimateur sans biais de B et sa variance vaut 


V(B) = o?(X'X) 1. 


Remarque 
Lorsque les variables sont orthogonales deux à deux, les composantes de 8 ne sont 
pas corrélées entre elles puisque la matrice (X’X) est diagonale (2.3). 


Le théorème de Gauss-Markov (voir exercice 2.3) indique que parmi tous les esti- 
mateurs linéaires sans biais de 6, l’estimateur obtenu par MC admet la plus petite 
variance : 


Théorème 2.2 (Gauss-Markov) 
L’estimateur des MC est optimal parmi les estimateurs linéaires sans biais de p. 
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En général, le biais et la variance d’un estimateur sont des propriétés qui évoluent 
en sens contraire et un critére souvent utilisé en statistique est l’erreur quadratique 
moyenne (EQM). 


Définition 2.3 (Erreur Quadratique Moyenne) 
L’erreur quadratique moyenne (EQM) d’un estimateur 0 de 0 de dimension p est 


7 
) + (6), 


EQM(6) = I 
= I 


Gi 


((8— 0)(6 — 


) 
(8 — 6)E(0 — à 


Gi 


c’est-à-dire le biais « au carré » plus la variance. 


Un estimateur biaisé peut être meilleur qu’un estimateur non biaisé si sa variance 
est plus petite. Illustrons, sur un exemple simple, l'équilibre biais variance. 
Supposons que nous connaissions la valeur du paramètre 0, ici 0 = 0 ainsi que la 
loi de deux estimateurs 6, et 02 : 6 ~ N(—0.5,1) et 62 ~ W(0,32). Nous savons 
donc que 6; est biaisé, car E(01) = —0.5 4 0 mais pas 6. A priori, nous serions 
tentés de prendre bs, puisqu’en moyenne il « tombe » sur le vrai paramètre 6. 
Comparons plus attentivement ces deux estimateurs en tracant leur densité. La 
figure 2.5 présente les densités de ces deux estimateurs et un intervalle de confiance 
à 95 % de ceux-ci. Si nous choisissons 6;, la distance entre le vrai paramètre et 
une estimation est, en moyenne, plus faible que pour le choix de 6. La moyenne 
de cette distance euclidienne peut être calculée, c’est l’'EQM. Ici l'EQM de 6, 
vaut 1.25 (biais au carré + variance) et celle de 65 vaut 3 donc le choix de 6; est 
plus raisonnable que 62: en moyenne il ne vaudra pas la valeur du paramétre, il 
est biaisé, mais en général il « tombe » moins loin du paramètre car il est moins 
variable (faible variance). 


| ee ee a 


5 0 5 
Fig. 2.5 — Estimateurs biaisé et non biaisé. En trait plein est représentée la densité 
de l’estimateur biaisé (en haut) et non biaisé (en bas). La droite verticale représente 
la valeur du paramètre à estimer. Le segment horizontal épais représente l’étendue 
correspondant à 95 % de la probabilité. 


40 Régression avec R 


L’EQM permet donc de comparer les estimateurs d’un même paramètre. Il est le 
résultat d’un équilibre entre le biais et la variance, qui réagissent en général en sens 
contraire. Dans le cas présent, l’estimateur B est sans biais donc son EQM corres- 
pond à sa variance mais nous allons dans ce livre travailler avec des estimateurs 
biaisés et l’'EQM sera donc à utiliser. 


2.3.4 Résidus et variance résiduelle 
Les résidus sont définis par la relation suivante : 
ê = Y-Ÿ =(1- Px)Y = PyiY. 


Les résidus appartiennent donc à S(X)+ et cet espace est aussi appelé espace 
des résidus. Les résidus sont donc toujours orthogonaux à Ÿ. Afin de calculer 
facilement les propriétés des résidus, il est possible d’écrire les résidus sous la 
forme suivante 


é = Py Y = Py (Xß +€) = Pyie 
et nous avons les propriétés suivantes (voir exercice 2.2). 


Proposition 2.2 (Propriétés de é et Y) 
Sous les hypothèses Hı et H2, nous avons 


E(é) = Px1E(e)=0 et V(é)=0?Pxi IP: = 0° Px1 
E(Y) = XE(B)=X8 et V(Ÿ)=0?Px 
Cov(é,Y) = 0. 


Les résidus estimés ê de € possèdent la même espérance que €. Nous étudierons les 
résidus plus en détail au chapitre 3. Nous avons mentionné un estimateur de g? 
noté 62. Un estimateur « naturel » de la variance résiduelle est donné par 


Le: 1 > 
~ a = cll. 
i=l 


Or comme ||é||? est un scalaire, nous écrivons que ce scalaire est égal à sa trace 
puis, en nous servant de la propriété de la trace (voir annexe A), nous obtenons 


E(|lél?) = Eltr(é’é)] = E[tr(éé’)] = tr(E[éé]) = tr(o?Px1) = o°? (n — p). 


La dernière égalité provient du fait que la trace d’un projecteur est égale à la 
dimension du sous-espace sur lequel on projette. Cet estimateur « naturel » est 
biaisé. Afin d’obtenir un estimateur sans biais, nous définissons donc 
„2 _ Il? _ SCR 
o = ai , 
n-p n-p 


où SCR est la somme des carrés résiduelle. 
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Proposition 2.3 (6? sans biais) 
La statistique à? est un estimateur sans biais de o°. 


A partir de cet estimateur, nous obtenons un estimateur de la variance de £ : 


2 = ox X)! = SCR (XX), 
B n— p 


et donc un estimateur de l’écart-type de l’estimateur B; de chaque coefficient 


ôa, = yê XX) j. 


2.3.5 Prévision 


Un des buts de la régression est de proposer des prévisions pour la variable à 
expliquer y lorsque nous avons de nouvelles valeurs de x. Soit une nouvelle valeur 
Day = (Engins: ; En+1,p), nous voulons prédire 7:41. Or 


, 
Yn+1 = Tn+10 + En41, 


avec E(en+1) = 0, V(enr1) = a? et Cov(ensy1,€;) = 0 pour i = 1,::: ,n. Nous 
pouvons prédire la valeur correspondante grâce au modèle ajusté 


AD fi À 
Un+1 =; Zn41b.- 


Deux types d’erreurs vont entacher la prévision, la première due à l'incertitude sur 
En+1 et l’autre à l'incertitude due à l'estimation. Calculons la variance de lerreur 
de prévision 


V (yny — du) = Veli + Eny — 2,118) = 0° +211 V (Bont 
= otal (XX) ttn). 


n- 


? à laquelle vient s’ajouter 


Nous retrouvons bien l'incertitude due aux erreurs a 
Vincertitude d’estimation. 

Remarque 

Puisque l’estimateur À est un estimateur non biaisé de B et l’espérance de € vaut 
zéro, les espérances de Yyn41 et §?,, sont identiques. La variance de l’erreur de 
prévision s’écrit : 


x À re 2 À 
V (Yn41 = oa) =E [un+1 9h41 — Elyn) +E 4)] =E(yn41 = iy. 


Nous voyons donc ici que la variance de l’erreur de prévision est mesurée par 
Verreur quadratique moyenne de prévision (EQMP), quantité que nous retrouve- 
rons au chapitre 7 car elle joue un rôle central dans l'évaluation de la qualité des 
modèles. 
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2.4 Interprétation géométrique 


Le théorème de Pythagore donne directement légalité suivante : 
IYI? IYI? + Well? 
= ||X6l? + IY — X$]. 


Si la constante fait partie du modèle, alors nous avons toujours par le théorème 
de Pythagore 
IY — yal? IY — #21? + êl? 
SC totale = SC expliquée par le modèle + SC résiduelle 
SCT = SCE+SCR. 
Définition 2.4 (R?) 
Le coefficient de détermination (multiple) R? est défini par 


II 


_ IP 


R? = 
IY |? 


= cos? bo 


et si la constante fait partie de S(X) par 


= V. expliquée par le modèle _ \|Y — yl? 


R? — = = 2 0. 
Variation totale Y — ÿ1|? = 


Le R? peut aussi s'écrire en fonction des résidus (voir l’exercice 5.3) : 
a112 
IE 


R? = 1 2 es. ne 
IY — #11? 


Ce coefficient mesure le cosinus carré de l’angle entre les vecteurs Y et Ÿ pris 
à l’origine ou pris en y (voir fig. 2.6). Ce dernier est toujours plus grand que le 
premier, le R? calculé lorsque la constante fait partie de S(X) est donc plus petit 
que le R? calculé directement. 


S(X) 


Fig. 2.6 — Représentation des variables et interprétation géométrique du R?. 


Ce coefficient ne tient cependant pas compte de la dimension de S(X), un R? 
ajusté est donc défini. 
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Définition 2.5 (R? ajusté) 
Le coefficient de détermination ajusté R? est défini par 


nel? 
Rais 
n—pll¥|? 


et, si la constante fait partie de S(X), par 


: n-p |Y — yl? 
P y 


L’ajustement correspond à la division des normes au carré par leur degré de liberté 


(ou dimension du sous-espace auquel le vecteur appartient) respectif. 


2.5 Exemples 


La concentration en ozone 


Nous expliquons l’ozone (03) par deux variables explicatives, la température à 12 h 
(T12) et le vent (Vx). Le vent est mesuré en degré (direction) et mètre par seconde 
(vitesse). Nous avons synthétisé ces deux variables en créant une variable (Vx) qui 
est la projection du vent sur l’axe est-ouest. Nous avons n = 50 observations. Nous 
avons choisi deux variables explicatives afin de pouvoir continuer à représenter 
directement les données et le modèle. Au-delà de deux variables explicatives, il est 
impossible de visualiser simplement les données. Nous commençons notre étude, à 


limage de la régression simple, en traçant les données. 


| > ozone <- read.table("ozone.txt", header = T, sep = ";") 
> library("scatterplot3d") 
> 
+ 


scatterplot3d(ozone[,"T12"],ozone[,"Vx"] ,ozone[,"03"] ,type="h", 


pch=16, box=FALSE, xlab="T12", ylab="Vx", zlab="03") 


03 
80 100 120 140 
— 


60 
—— 
—— 


i=) 
+ 


3 10 15 20 
T12 


Fig. 2.7 — Représentation brute des données : modèle d’explication de l’ozone (03) 


par la température à 12 h (T12) et le vent (Vx). 
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Il est maintenant trés difficile de voir si une régression est adaptée, ce qui signifie 
ici que les points ne doivent pas étre trés éloignés d’un plan commun. 


e Les phases d’estimation puis de synthése des résultats obtenus sont conduites 
avec les ordres suivants : 

i > regmulti <- 1m(03~T12+Vx, data = ozone) 

| > summary (regmulti) 

Rappelons que, classiquement, le statisticien inclut toujours une moyenne générale 
(ou intercept). Les logiciels de statistique ne font pas exception a cette régle et 
ils intègrent automatiquement la moyenne générale, c’est-à-dire la variable Xı 
composée uniquement de 1. Le modèle de régression est donc 


03 = By + BoT12 + BaVx +E 


Le résumé permet de connaître les estimations des paramètres et de leur écart-type. 

Il donne aussi la qualité d’ajustement via le R?, ici R? = 0.52. 

| Call: 

| lm(formula = 03 ~ T12 + Vx, data = ozone) 

Residuals: 

| Min 1Q Median 3Q Max 
-42.984 -10.152 -2.407 11.710 34.494 


Coefficients: 
Estimate Std. Error t value Pr(>|t|l) 
(Intercept) 35.4530 10.7446 3.300 0.00185 ** 


T12 2.5380 0.5151 4.927 1.08e-05 *** 
Vx 0.8736 0.1772 4.931 1.06e-05 *** 
Signif. codes: © °*#*? 0.001 xx) 0.01 ?*? 0.05 >. 0.1 % 7? 1 


“ Residual standard error: 16.82 on 47 degrees of freedom 
| Multiple R-Squared: 0.5249, Adjusted R-squared: 0.5047 
| F-statistic: 25.96 on 2 and 47 DF, p-value: 2.541e-08 


L’estimation de ô vaut ici 16.82 et nous avons n = 50 pour p = 3 variables, ce qui 
donne n — p = 47 (degrés de liberté). 

Enfin, à l’issue de cette phase d’estimation, nous pouvons tracer le plan d’équa- 
tion z = 35.453 + 2.5382 + 0.8736y. Il est difficile d’avoir une idée de la qualité 
d’ajustement du modèle via une figure en 3 dimensions. En général la qualité d’un 
modèle sera envisagée par l'analyse des résidus (chapitre 3). 
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03 


40 60 80 100 120 140 


tn 4 


T12 
Fig. 2.8 — Représentation des données et hyperplan. 


Nous avons ajouté la variable Vx au modèle présenté dans le chapitre 1, cet ajout 
est-il pertinent? Afin de répondre à cette question nous devons envisager de 
construire soit des procédures générales de choix de modèles (voir chapitre 7), 
soit un test entre le modèle de la régression simple 03 = 81 + 52T12 + € et le 
modèle 03 = 61 + 82T12 + 63Vx + €, ce qui est un des objets du chapitre 5. 


La hauteur des eucalyptus 


Nous cherchons à expliquer la hauteur de n = 1429 eucalyptus par leur circonfé- 
rence. Nous avions mentionné dans le chapitre précédent qu’un modèle du type 


ht = ßbı+ ßzcirc + zv circ +€, 


serait peut-être plus adapté. 
e Nous commençons par représenter les données. 


> eucalypt <- read.table("eucalyptus.txt", header = T, sep = ";") 
> plot(ht~circ, data = eucalypt, xlab = "circ", ylab = "ht") 


30 40 50 . 60 70 
circ 


Fig. 2.9 — Représentation des mesures pour les n = 1429 eucalyptus mesurés. 


e La phase d’estimation permet d’obtenir le résumé ci-après. Notez que l’opéra- 


46 Régression avec R 


teur IQ permet de protéger | l'opération « racine carrée ». Bien qu’il ne soit pas 
obligatoire dans ce cas, il est préférable de s’habituer à son emploi. 


> regmult <- Im(ht ~ circ + I(sqrt(circ)), data = eucalypt) 
> resume.mult <- summary(regmult) 

> resume.mult 

Call: 

lm(formula = ht ~ circ + I(sqrt(circ)), data = eucalypt) 


Residuals: 
Min 1Q Median 3Q Max 
-4.18811 -0.68811 0.04272 0.79272 3.74814 


Coefficients: 

Estimate Std. Error t value Pr(>|t|l) 
(Intercept) —24.35200 2.61444 -9.314 <2e-16 **x 
circ -0.48295 0.05793 -8.336 <2e-16 *** 
I(sqrt (circ) ) 9.98689 0.78033 12.798 <2e-16 **x 


Signif. codes: 0 xx»? 0.001 ’*#? 0.01 ?*? 0.05 >.>? 0.1%? 1 


Residual standard error: 1.136 on 1426 degrees of freedom 
Multiple R-Squared: 0.7922, Adjusted R-squared: 0.7919 
F-statistic: 2718 on 2 and 1426 DF, p-value: < 2.2e-16 


L’estimation des 3 coefficients est donnée dans la première colonne, suivie de leur 
écart-type estimé et du test de nullité du coefficient (voir prochain chapitre). L’es- 
timation de o donne ici 1.136, avec n — p = 1426. Le R? augmente avec ce nouveau 
modèle et passe de 0.768 à 0.792. Cela signifie que le modèle ajuste mieux les don- 
nées avec une variable supplémentaire (v circ). Ce phénomène est normal puisque 
l’on a projeté sur un sous-espace S(X) plus grand (on a ajouté une variable), la 
projection Y = PxY est plus proche de Y avec le grand modèle et donc le R? est 
meilleur (voir 7.3 p. 171). Le R? n’est donc pas adapté pour juger de la pertinence 
de l’ajout de variables. 


e La qualité d'ajustement peut être envisagée graphiquement grâce à : 


> plot(ht - circ, data = eucalypt, pch = "+", col = "grey60") 
> grille <- data.frame(circ = seq(min(eucalypt[,"circ"]), 

+ max(eucalypt[,"circ"]), length = 100) 
> lines(grille[,"circ"], predict(regmult, grille)) 


1. Noter que le « + » qui sépare deux variables dans la formule ht~circtI(sqrt(circ)) ne 
signifie pas que l’on additionne les 2 variables circ et Vcirc. Les opérateurs classiques (+, *, 
^) que l’on veut utiliser dans les formules doivent être protégés. Ici l'opérateur y est protégé 
par I(). 
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Nous pouvons constater que le modèle semble très bien ajusté pour la plupart 
des valeurs de circonférence, sauf pour les grandes valeurs (circ > 65 cm) où 
Vajustement est toujours plus faible que la valeur mesurée. 


al pt — 
N Sa 
e | ere $ 
za Le 
£5253 
Ld 
a | ; 
= Lat 
30 40 50 60 70 


circ 
Fig. 2.10 — Représentation des données et du modèle ajusté. 


Ce modèle est donc cohérent pour des valeurs jusqu’à 60-65 cm de circonférence 
et moins adapté au-dela. 


2.6 Exercices 


Exercice 2.1 (Questions de cours) 
1) Nous avons effectué une régression multiple, une des variables explicatives est la constante, 
la somme des résidus calculés vaut : 


A. 0, 
B. approximativement 0, 
C. parfois 0. 
2) Le vecteur Ÿ est orthogonal au vecteur des résidus estimés ê : 
A. oui, 
B. non, 


C. seulement si 1 fait partie des variables explicatives. 
3) Un estimateur de la variance de $ de l'estimateur des MC de B vaut : 


A. P(X’ X), 
B. 6’(X'X) !, 
C 6’(XX') !. 


4) Un autre estimateur B que celui des moindres carrés (moindres valeurs absolues par 
exemple ou d’autres encore) a été calculé. La SCR obtenue avec cet estimateur est : 

A. plus petite que la SCR obtenue avec l'estimateur des MC classique, 

B. plus grande que la SCR obtenue avec l'estimateur des MC classique, 

C. aucun rapport. 
5) Une régression a été effectuée et le calcul de la SCR a donné la valeur notée SCR1. 
Une variable est ajoutée, le calcul de la SCR a donné une nouvelle valeur notée SCR2. Nous 
savons que : 

A. SCR1 < SCR2, 

B. SCR1 > SCR2, 

C. cela dépend de la variable ajoutée. 
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6) Une régression a été effectuée et un estimateur de la variance résiduelle a donné la 
valeur notée 6? . Une variable est ajoutée et un estimateur de la variance résiduelle vaut 
maintenant 63. Nous savons que : 

A. ôi < 63, 

B. ôi 2 63, 

C. on ne peut rien dire. 


Exercice 2.2 (Covariance de é et de Y) 
Montrer que Cov(é, Y) = 0. 


Exercice 2.3 ({Théoréme de Gauss-Markov) 
Démontrer le théorème de Gauss-Markov. 


Exercice 2.4 (Représentation des variables) 
Nous avons une variable Y à expliquer par une variable X. Nous avons effectué n = 2 mesures 
et trouvé 


(x1, y1) = (4,5) et (x2, y2) z (1,5). 


Représenter les variables, estimer 5 dans le modèle y; = 6x; + €; puis représenter Y. 
Nous avons maintenant une variable Y à expliquer grâce à 2 variables X et Z, nous avons 
effectué n = 3 mesures 


(£1, 21, y1) = (3, 2,0), (x2, 22, Y2) a (3,3,5) et (£3, 23, y3) = (0, 0,3). 
Représenter les variables, estimer 5 dans le modèle y; = Gai + yzi + €; et représenter Y. 


Exercice 2.5 (Modéles emboités) 

Soit X une matrice de taille n x p composée de p vecteurs linéairement indépendants de R”. 
Nous notons X, la matrice composée des q (q < p) premiers vecteurs de X. Nous avons les 
deux modèles suivants : 


Y = XB+eE 
Y = Xqyte. 


Comparer les R? dans les deux modèles. 


Exercice 2.6 
On examine l'évolution d'une variable Y en fonction de deux variables exogènes x et z. On 
dispose de n observations de ces variables. On note X = (1 x z) où 1 est le vecteur constant 
et x, z sont les vecteurs des variables explicatives. 

1) Nous avons obtenu les résultats suivants : 


30 0 0 
X'X = ? 10 7 
2? ? 15 


a) Que vaut n? Renseigner les valeurs manquantes. 
b) Calculer le coefficient de corrélation linéaire empirique entre X et Z. 
2) La régression linéaire empirique de Y sur 1, X, Z donne 


Y =—21+X+2Z+ê, SCR—|É| = 12. 
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a) Déterminer la moyenne arithmétique y. 
b) Calculer la somme des carrés expliquée (SCE), la somme des carrés totale (SCT) et le 
coefficient de détermination. 


Exercice 2.7 (Changement d’échelles des variables explicatives) 

Nous souhaitons expliquer la variable Y par p variables explicatives X1,--- , Xp. L'estimateur 
des moindres carrés obtenus est B. Pour différentes raisons, chaque variable est pré-multipliée 
par un scalaire a1,--- ,a,. Avec ces nouvelles variables, l'estimateur des moindres carrés 
obtenus est 8. Montrer que cela revient à diviser chaque composante de B par les a; respectifs. 
Vérifier ce résultat avec R. 


Exercice 2.8 (Différence entre régression multiple et régressions simples) 
Nous souhaitons expliquer la variable Y par deux variables exogénes X et Z. Nous disposons 
de n observations de ces variables. 

1) Considérons le modèle y; = Bixi + G22; + €i, donner la forme explicite de By et Bo. 

2) Considérons maintenant les deux modèles univariés y; = Gia; + €; et yi = Bazi + £i, 

donner la forme explicite des estimateurs. 

3) Que concluez-vous ? 

4) Considérons l'analyse séquentielle : estimer les paramètres du modèle y; = Bixi + € 

puis expliquer les résidus par la variable Z. Comparer les estimateurs. 


Exercice 2.9 (TP : différence entre régression multiple et régressions simples) 
L'objectif de ce TP est d'illustrer l'exercice précédent. Simulez 2 variables explicatives X; et 
X2 qui suivent par exemple une loi uniforme entre [0,1] puis simulez ensuite le modèle 


Y = 2-3X1+A4X2+E, 


où € suit une loi normale d'espérance 0 et de variance .2. 
1) Dessiner le nuage de points en utilisant la fonction plot3d du package rgl. 
2) Qu'observez-vous ? 
3) Effectuer une régression multiple, estimer les paramètres, conserver Ÿ. 
4) Effectuer les régressions simples de Y sur Xj et sur X2 estimez le paramètre associé 
(est-ce le même ?). 
5) Effectuer maintenant deux régressions séquentielles : régresser Y sur X1, conserver les 
résidus et effectuer une régression simple des résidus sur X2. Comparer les paramètres 
estimés et comparer Ÿ avec le Ÿ de la question 3. 
6) Changer l'ordre de la question précédente : commencer par régresser Y sur X2 puis les 
résidus sur X1, comparer les estimateurs et Ÿ. 
7) Les variables X, et Xə étaient peu corrélées (utilisé cov) mais elles n'étaient pas or- 
thogonales (et oui il faut les centrer !). Recommencer tout l'exercice en remplaçons X1 par 
Xic = Xı — mean(X1) et X2 par X2c = X2 — mean(X2). Conclusion ? 


Exercice 2.10 (TP : régression multiple et codes R) 
L'objectif de ce TP est d'utiliser R pour effectuer des modèles de régression en utilisant 
la fonction formula. Importer les données d'ozone et effectuez une régression multiple en 
utilisant la fonction Im où la variable à expliquer est 03 grâce aux variables de température, 
nébulosité... 
Il est inutile d'écrire toutes les variables mais juste 1m(03- .,data=vosdonnees). Il est 
parfois utile d'écrire un modèle avec les variables, pour faire cette manipulation, 

1) Récupérer les noms des variables explicatives dans un vecteur nomvar. 
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2) A l’aide de la fonction paste et de l'argument collapse, constituer le vecteur de caractères 
suivant "Ne9+Ne12+---+03v". 

3) Modifier cette chaîne de caractères pour obtenir la chaîne suivante : 

"03 ~ Ne9+Ne12+---+03v". 

4) Transformer cette chaîne de caractères en utilisant la fonction formula et affecter le 
résultat dans l'objet formule. Vérifier que vous pouvez appliquer la fonction Im à cet objet. 


Exercice 2.11 (Régression orthogonale) 

Considérons le modèle Y = X8 +e, où Y € R”, X est une matrice de taille n x p composée 
de p vecteurs orthogonaux, B € R? et e € R”. Considérons U la matrice des q premières 
colonnes de X et V la matrice des p — q dernières colonnes de X. Nous avons obtenu par les 
MC les estimations suivantes : 


fx = Xi + TX, 
fo = BX +--+ BUX, 
Yv = PiX tes + BY Xp. 


Notons également SCE(A) la norme au carré de PaY. 
1) Montrer que SCE(X) = SCE(U) + SCE(V). 
2) Choisir une variable nommée Xz, montrer que l'estimation de Br est identique quel que 
soit le modèle utilisé. 


Exercice 2.12 (Centrage, centrage-réduction et coefficient constant) 
Considérons le modèle Y = X8 + € où la dernière colonne (la p°) de X est le vecteur 1. 
1) Soient les variables {X;}, j = 1,---,p et Y et celles centrées notées {X;} et Ÿ. 
Montrer que la dernière colonne de X regroupant les variables {Xj} vaut 0. La matrice X 
sera dorénavant la matrice X centrée et privée de sa dernière colonne de 0. Elle est donc 
de dimension n x (p — 1). 
2) Soit le modèle suivant : Ÿ = XÂ + e. En identifiant ce modèle avec le modèle de 
régression Y = XB+E, trouver la valeur de B, en fonction de Bie Bp—1 et des moyennes 
empiriques de Y et X. Ce coefficient 8, associé à la variable 1 est appelé coefficient constant 
(ou intercept en anglais). 
3) Supposons maintenant que les variables {X,} sont centrées-réduites et que Y est simple- 
ment centrée. Nous continuons à les noter { X;} et Ý. Que valent 61,..., 8 p—1 en fonction 
de fi,..., Bp-1 ? Que vaut le coefficient constant 6, ? 
4) Même question que précédemment avec X et Y centrées-réduites. 
5) Simuler 3 variables explicatives et effectuer les questions précédentes sous R. 


Exercice 2.13 (ff Moindres carrés contraints) 
Considérons le modèle Y = X8 +. Nous définissons l'estimateur des MC classique et 
l'estimateur contraint par 


Ê = argmin|Y — XB]? 
Be = argmin|Y — XB|? sc RB=r, 


où À est une matrice de taille q x p de rang q < p et r un vecteur de R4. 
1) Calculer l'estimateur des moindres carrés. 
2) Vérifier que l'estimateur des moindres carrés contraints vaut 


Be = B+ (XX) RIR(A'X) RT (r — RB). 
3) Calculer l'EQM de Be et comparer à l'EQM de l'estimateur des MC. 


Chapitre 3 


Validation du modèle 


Nous rappelons le contexte : 


Ynx1 = Xnxp Bpx1 + Enx1, 


sous les hypothèses 


— H,:rang(X) =p, 
— H: E(e)=0, E. = 021, cette hypothèse est souvent remplacée par 
— H3:e~ N(0,o7I,). 


Les différentes étapes d’une régression peuvent se résumer de la sorte : 
P P 


1. la modélisation : nous avons supposé que la variable Y est expliquée de manière 
linéaire par les variables X1,--:,X, via le modèle de régression Y = X +€; 


2. l'estimation : nous avons ensuite estimé les paramètres grâce aux données ré- 
coltées. Les hypothèses sur le bruit € notées Ho ou H3 ont permis d’établir des 
propriétés statistiques des estimateurs obtenus ; 


3. la validation : objectif de ce chapitre. Nous aborderons le problème de la vali- 
dation des hypothèses Hə ou Hg. La vérification de l’hypothèse Hı est immédiate 
et les solutions dans le cas où cette hypothèse n’est pas vérifiée seront abordées 
aux chapitres 4 et 9. Nous envisagerons aussi les problèmes d’ajustement d’un in- 
dividu ainsi que la validation du modèle lui-même (validation globale), problème 
important mais souvent négligé. Cette validation globale peut être envisagée de 
deux manières : choix ou non d'inclure des variables et/ou vérification du carac- 
tère linéaire de la liaison entre la variable considérée et Y comme spécifié par le 
modèle. Nous traiterons ici le caractère linéaire de la liaison et les transformations 
éventuelles à effectuer pour rendre cette liaison linéaire. Le choix d'inclure ou de 
retirer des variables sera étudié en détail au chapitre 7. 
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3.1 Analyse des résidus 


L’examen des résidus constitue une étape primordiale de la régression linéaire. 
Cette étape est essentiellement fondée sur des méthodes graphiques, et il est donc 
difficile d’avoir des regles strictes de décision. L’objectif de cette partie est de 
présenter ces méthodes graphiques. Commençons par rappeler les définitions des 
différents résidus. 


3.1.1 Les différents résidus 


Les erreurs €; sont estimées par ê; = y; — ĝi. Nous avons 


Hypothèses Réalité 
V(E) = o?I V(é) = o?(I — Px) 


Afin d'éliminer la non-homogénéité des variances des résidus estimés, nous préfé- 
rons utiliser les résidus normalisés définis par 


A 


Ei 
ov l = hii 


où hy; est élément (i, j) de la matrice Px. Nous obtenons les résidus standardisés 
en remplaçant le paramètre inconnu © par son estimateur 6 : 


Ti = 


Ei 

i= AAi (3.1) 
Ces résidus ne sont pas indépendants par construction et ils ne peuvent donc pas 
être représentatifs d’une absence/présence de structuration par autocorrélation. 
Leur loi est difficile à calculer car le numérateur et le dénominateur sont corré- 
lés. Ils possèdent la même variance unité, ils sont donc utiles pour détecter des 
valeurs importantes de résidus. Cependant, nous préférons utiliser les résidus stu- 
dentisés par validation croisée (VC) (souvent nommés dans les logiciels studentized 
residuals) 


A 


Ei 
4 A , 
O(i) 1 — hii 
où Gj) est l’estimateur de o dans le modèle linéaire privé de l’observation i. Ces 
résidus ont une même variance égale à l’unité. Ils se construisent simplement en 


deux étapes : 


1. nous estimons les paramètres 8 et ga? avec tous les individus, excepté le i°, nous 
obtenons alors fq) et êti) ; 
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2. nous prévoyons y; par ĝ? = a! Buy. 


Ce procédé peut paraitre long mais dans le cas de la régression linéaire, il est 
possible de calculer le numérateur avec toutes les données en utilisant la formule 
liant l’erreur de prévision à l'erreur d’ajustement (ou résidu) 


à Vi — Yi 
yi — À = (3.2) 


Sous l’hypothèse de normalité des résidus, nous avons le théorème suivant : 


Théorème 3.1 (Loi des résidus studentisés par VC) 

Si la matrice X est de plein rang, si les ci ~ N'(0,0?) et si la suppression de la 
ligne i ne modifie pas le rang de la matrice, alors les résidus studentisés par VC, 
notés t*, suivent une loi de Student à (n — p — 1) degrés de liberté. 


L'exercice 3.4 est dédié à l’analyse des résidus studentisés. Ainsi, les résidus stu- 
dentisés par VC sont de même variance et peuvent suivre une loi de Student 
(voir théorème 3.1). Il est donc possible de les analyser simplement. En moyenne, 
il y a 5 % des observations en dehors de la « bande » de largeur constante qu’une 
règle « empirique » habituelle fixe à +2, car 2 est proche du quantile à 97.5 % 
d’une loi normale. 


Remarque 

Nous préconisons d’analyser les résidus dont la valeur est plus grande que le fractile 
d'ordre 1/n. Ainsi si l'échantillon vaut 100, nous nous intéresserons aux résidus 
dont la valeur absolue est supérieure à 2.3, si n vaut 1000, aux résidus dont la 
valeur absolue est supérieure à 3... En effet il y aura toujours en moyenne des 
résidus à l'extérieur de l'intervalle [—2, 2]. 


Conclusion 

Les résidus utilisés sont en général les ê; mais leur variance dépend de l’observa- 
tion à via la matrice de projection. L'utilisation de ces résidus est, à notre avis, à 
déconseiller. Nous préférons travailler avec des résidus homoscédastiques et donc 
utiliser t; ou t*. Ces derniers permettent de détecter des valeurs aberrantes. Il 
semble cependant préférable d'utiliser tf pour plusieurs raisons : 

e les tf suivent un 7,_,-1, ils permettent de mieux appréhender une éventuelle 
non-indépendance non prise en compte par le modèle; 

e nous avons t* = {;4/(n — p — 1)/(n — p — t?) et donc lorsque t; est supérieur à 
1, tf > t; car y/(n — p — 1)/(n — p — t?) > 1. Les résidus studentisés font mieux 
ressortir les grandes valeurs et permettent donc une détection plus facile des 
valeurs aberrantes ; 

e enfin 6(;) est indépendant de y; et n’est donc pas influencé par des erreurs 
grossières sur la ¿° observation. 


3.1.2 Ajustement individuel au modèle, valeur aberrante 


Pour analyser la qualité de l'ajustement d’une observation, il suffit de regarder le 
résidu correspondant à cette observation. Si ce résidu est anormalement élevé (sens 
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que nous allons préciser), alors l’individu i est appelé individu aberrant ou point 
aberrant. Il convient alors d’essayer d’en comprendre la raison (erreur de mesure, 
individu provenant d’une sous-population) et éventuellement d’éliminer ce point 
car il peut modifier les estimations. 

Une valeur aberrante est une observation qui est mal expliquée par le modèle et 
admet un résidu élevé. Cette notion est définie par : 


Définition 3.1 (Valeur aberrante) 
Une donnée aberrante est un point (x!,w:) pour lequel la valeur associée à t} est 
élevée {comparée au seuil donné par la loi du Student) : [| > tn-p-1(1 — a/2). 


Il faut faire preuve de bon sens comme indiqué dans la remarque précédente. 
Généralement les données aberrantes sont détectées en traçant les t7. La détection 
des données aberrantes ne dépend que de la grandeur des résidus. Voyons cela sur 
un exemple simulé. 


5 10 i5 20 2 4 6 

(a) (b) 

Fig. 3.1 — Résidus studentisés corrects (a) et résidus studentisés avec un individu 
aberrant à vérifier signalé par une flèche (b) et un second moins important. 


La figure (3.1.a) montre un ajustement individuel satisfaisant. Remarquons qu’en 
théorie a% des observations sont des valeurs aberrantes. Nous cherchons donc 
plutôt les résidus dont les valeurs absolues sont nettement au-dessus du seuil de 
tn—p—1(1 — a/2). Ainsi nous nous intéresserons dans la figure (3.1.b) au seul indi- 
vidu désigné par une flèche. 

Une fois repérées et notées, il est bon de comprendre pourquoi ces valeurs sont 
aberrantes : est-ce une erreur de mesure ou d’enregistrement ? Proviennent-elles 
d’une autre population ?... Nous recommandons d’enlever ces points de l’analyse. 
Si vous souhaitez les conserver malgré tout, il est indispensable de s’assurer que 
ce ne sont pas des valeurs influentes : les coefficients et les interprétations tirées 
du modèle ne doivent pas trop varier avec ou sans ces observations. 


3.1.3 Analyse de la normalité 


L'hypothèse de normalité sera examinée à l’aide d’un graphique comparant les 
quantiles des résidus estimés à ces mêmes quantiles sous l'hypothèse de normalité. 
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Ce type de graphique est appelé Q-Q plot. Supposons que nous ayons n observa- 


tions €1,...,€n de la variable aléatoire £ qui suit une loi normale W(0, 1). Classons 
les €; par ordre croissant, €(1,,...,€(n). L’espérance de €(;) est alors approchée par 
g-1 ($= 8/8 sin < 10 
n+1/4 
i — 1/2 
œ ! (=£) sinon, 
n 


où ®(.) est la fonction de répartition de la loi normale (bijection de R dans ]0; 1[). 
Le graphique est alors obtenu en dessinant €(1),...,€(n) contre leur espérance 
théorique respective sous hypothèse de normalité. Si cette hypothèse est respectée, 
le graphique obtenu sera proche de la première bissectrice (voir fig. 3.10). 


3.1.4 Analyse de l’homoscédasticité 


Il n’existe pas de procédure précise pour vérifier hypothèse d’homoscédasticité. 
Nous proposons plusieurs graphiques possibles pour détecter une hétéroscédasti- 
cité. Il est recommandé de tracer les résidus studentisés par validation croisée tř 
en fonction des valeurs ajustées ĝ;, c’est-à-dire tracer les couples de points (ĝ;, t7). 
Si une structure apparaît (tendance, cône, vagues), l'hypothèse d’homoscédasticité 
risque fort de ne pas être vérifiée. Voyons cela sur un graphique. 
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Fig. 3.2 — Hétéroscédasticité des résidus. 


L’ajustement n’est pas satisfaisant (fig. 3.2) car la variabilité des résidus augmente 
avec la valeur de ĝ;, on parle de cône de variance croissante avec la valeur de l’axe 
des abscisses Y. Le second graphique trace la valeur absolue du résidu avec une 
estimation de la tendance des résidus. Cette estimation de la tendance est obte- 
nue par un lisseur, ici lowess (Cleveland, 1979). Ce lisseur, qui est aussi nommé 
loess, est le plus utilisé pour obtenir ce type de courbe. Il consiste en une ré- 
gression par polynômes locaux itérée. Nous voyons que la tendance est croissante 
et donc que la variance des résidus augmente le long de l’axe des abscisses. Ce 
deuxième graphique permet de repérer plus facilement que le premier les change- 
ments de variance éventuels dans les résidus. Le choix de l’axe des abscisses est 
très important et permet (ou non) de détecter une hétéroscédasticité. D’autres 
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choix que Y en abscisse peuvent s’avérer plus pertinents selon le problème comme 
le temps, l’indice... 

Remédier à l’hétéroscédasticité est compliqué car elle peut avoir plusieurs sources 
potentielles : variable manquante, effet temporel, effet spatial, variable potentiel- 
lement à transformer grâce à l’analyse des résidus partiels (voir section 3.4.3). 


3.1.5 Analyse de la structure des résidus 


Les résidus sont supposés être non corrélés entre eux (H2) ou indépendants (H3). 
Il existe de nombreuses raisons qui font que les résidus sont corrélés : mauvaise 
modélisation, structuration temporelle, structuration spatiale... que nous allons 
analyser via des représentations graphiques adaptées. 


Structure due à une mauvaise modélisation 


Une structure dans les résidus peut être due à une mauvaise modélisation. Sup- 
posons que nous ayons oublié une variable intervenant dans l’explication de la 
variable Y. Cet oubli se retrouvera forcément dans les résidus qui sont par défi- 
nition les observations moins l'estimation par le modèle. L'hypothèse d’absence 
de structuration (Cov(e;,e;) = 0 Vi # j) risque de ne pas être vérifiée. En effet, 
la composante oubliée dans le modèle va s’additionner au vrai bruit et devrait 
apparaître dans le dessin des résidus. Une forme quelconque de structuration dans 
les graphiques des résidus sera annonciatrice d’un mauvais ajustement du modèle. 
La figure (3.3) montre les graphiques d’un modèle linéaire Y = a + B1 X1 + € alors 


que le vrai modèle est un modèle à deux variables Y = a+ B1X1 + B2X9 + €. 
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Fig. 3.3 — Les résidus studentisés (par VC) sont représentés comme fonctions du 
numéro de l’observation (index), de l'estimation du modèle Y et de Xo. 


L’ajustement paraît non satisfaisant puisqu’une structure linéaire décroissante se 
dégage des résidus de la troisième représentation. Notons l’importance du choix 
de l’axe des abscisses car les premiers graphiques, représentant les mêmes résidus, 
ne laissent pas soupçonner cette tendance décroissante. Le modèle linéaire proposé 
n’est pas judicieux, il serait bon dans cet exemple simple de rajouter au modèle la 
variable « oubliée » Xə. 
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Ce type de diagnostic peut être insuffisant. Une autre méthode plus précise consiste 
a analyser, variable par variable, si la variable explicative considérée agit bien de 
manière linéaire sur la variable à expliquer comme cela est requis dans le modèle. 
Ce type d’analyse sera mené avec des résidus appelés résidus partiels (ou rési- 
dus partiels augmentés) ou encore par des régressions partielles. Ces graphiques 
permettent de constater si une variable candidate est bien utile au modèle et de 
trouver d’éventuelles fonctions non linéaires de variables explicatives déjà pré- 
sentes. Rappelons qu’une fonction non linéaire f fixée d’une variable explicative 
X; est considérée comme une variable explicative à part entière X,41 = f(X;) 
(voir p. 34). Nous verrons cela à la fin de ce chapitre (voir section 3.4.3). 


Structure temporelle 


Si l’on soupçonne une structuration temporelle (autocorrélation des résidus), un 
graphique temps en abscisse, résidus en ordonnée sera indiqué. Le test générale- 
ment utilisé est le test de Durbin-Watson. Il consiste à tester Ho : l'indépendance, 
contre H; : les résidus sont non indépendants et suivent un processus autorégres- 
sif d'ordre 1 (Montgomery et al., 2001). Il existe cependant de nombreux autres 
modèles de non-indépendance qui ne seront pas forcément détectés par ce test. 
L'utilisation d’un lisseur peut permettre de dégager une éventuelle structuration 
dans les résidus (voir fig. 3.4) de façon simple et rapide. 

Il est cependant difficile, voire impossible, de discerner entre une structuration 
due à un oubli dans la modélisation de la moyenne et une structuration due à une 
mauvaise modélisation de la variance comme cela est illustré sur la figure 3.4). 


00 05 10 15 20 25 60 05 f0 5 20 35 
(a) (b) 

Fig. 3.4 — Graphique (a) variance mal modélisée (tendance sinusoidale due a 

un bruit autorégressif d’ordre 1 : €; = pe;_1 + mı). Graphique (b) moyenne mal 


modélisée (composante explicative non prise en compte : X2 = 0.2sin(3x)). 


Structure spatiale 


Lorsque les données possèdent une structure spatiale (coordonnées GPS, villes...), 
un graphique possible consiste à représenter les résidus sur la carte par un cercle ou 
un carré (selon le signe du résidu estimé) de taille variable (selon la valeur absolue 
du résidu estimé). Ce type de graphique permettra de détecter une éventuelle 
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structuration spatiale (agrégats de ronds ou de carrés, ou au contraire alternance 
des ronds/carrés). Si une structuration est observée, un travail sur les résidus et 
en particulier sur leur covariance est nécessaire. 

Un exemple trés classique de structuration est tiré d’Upton & Fingleton (1985). Le 
but de la modélisation est d’expliquer le nombre de plantes endémiques observées Y 
par la surface de l’unité de mesure, l'altitude et la latitude. Les résidus studentisés 
sont représentés sur la carte géographique des emplacements de mesure (fig. 3.5). 


: E T) 


725-15 05 05 15 25 
26 N 38° — 


25 ` Nevada 


N 
‘N 


. . ‘N 
24 Californie Sa 


Fig. 3.5 — Exemple de résidus studentisés structurés spatialement. 


On observe des agrégats de résidus positifs ou négatifs semblant indiquer une 
structuration spatiale dans les résidus. Dans cet exemple, une représentation des 
résidus en fonction de Y ou du numéro de l'observation apporte peu d’information. 
Le choix d’une représentation adéquate est crucial pour faire les bons diagnostics. 


Conclusion 


Il est impératif de tracer un graphique avec en ordonnée les résidus et en abs- 
cisse soit Y, soit le numéro de l’observation, soit le temps ou tout autre facteur 
potentiel de non indépendance. Ce type de graphique permettra : de vérifier l’ajus- 
tement global, de repérer les points aberrants, ainsi que de vérifier les hypothéses 
concernant la structure de variance du vecteur €. D’autres graphiques, comme ceux 
présentant la valeur absolue des résidus en ordonnée permettront de regarder la 
structuration de la variance. L’analyse des résidus permet de détecter des diffé- 
rences significatives entre les valeurs observées et les valeurs prédites. Cela permet 
donc de connaître les points mal prédits et les faiblesses du modèle en termes de 
moyenne ou de variance. Cependant, cela ne nous renseigne pas sur les variations 
des estimateurs des paramètres dues à la suppression d’une observation et donc à 
la robustesse de ces estimations. Les mesures permettant d'étudier cette robustesse 
sont présentées dans la prochaine section. 
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3.2 Analyse de la matrice de projection 
La matrice de projection 
Pe = X(X' X; X', 
est la matrice intervenant dans le calcul des valeurs ajustées. En effet, 
Ŷ = PxY. 


Pour la ligne i, en notant hij élément courant de la matrice de projection Px, 
cela s'écrit 


n 
D = D hyu = huyi + > hijuj 
j=l ji 
Cette dernière écriture permet de mesurer le poids de l’observation sur son propre 
ajustement via hii. 


Définition 3.2 (Poids de l’observation 7) 
Le « poids » de l’observation i sur sa propre estimation vaut hii. 


La matrice de la projection orthogonale Px sur l’espace engendré par les colonnes 
de X, d’élément courant h;;, admet en particulier comme propriétés (voir exer- 
cice 3.2) que si hi; = 1 alors hi; = 0 pour tout j différent de i et si hy; = 0, alors 
hij = 0 pour tout j différent de i. Nous avons alors les cas extrêmes suivants : 

— si h; = 1, % est entièrement déterminée par y; car hy; = 0 pour tout j; 

— si hi; = 0, yi n’a pas d'influence sur 9; (qui vaut alors zéro). 

Nous savons aussi que tr(Px) = >> hi; = p, la moyenne des hi; vaut donc p/n. 
Ainsi si h;; est « grand », y; influe fortement sur ĝ;. Différents auteurs ont travaillé 
sur ce critère et la définition suivante rapporte leur définition de « grand ». 


Définition 3.3 (Point levier) 

Un point i est un point levier si la valeur hi; de la matrice de projection dépasse 
les valeurs suivantes : 

— hy > 2p/n selon Hoaglin & Welsch (1978) ; 

— hii > 3p/n pour p > 6 et n— p > 12 selon Velleman & Welsh (1981) ; 

— hy > 0.5 selon Huber (1981). 


Pour un modèle de régression simple dont le nuage de points est représenté sur 
la figure (3.6) le point désigné par une fléche est un point levier. Sa localisation 
sur l’axe x est différente des autres points et son poids h;; est prépondérant et 
supérieur aux valeurs seuils de 2p/n et 3p/n. Cette notion de levier h;; correspond 
à l’éloignement du centre de gravité de la i° ligne de X. Plus le point est éloigné, 
plus la valeur des h;; augmente. Remarquons que ce point est levier mais non 
aberrant car il se situe dans le prolongement de la droite de régression et donc 
son résidu sera faible. Cependant dans ce cas précis, ce point levier affectera peu 
l'estimation du paramètre mais il interviendra dans l'estimation de la variance. 
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Fig. 3.6 — Exemple d’un point levier, figuré par la flèche, pour un modèle de 
régression simple. Quantification par h;; de la notion de levier. La ligne en pointillé 
représente le seuil de 3p/n et celle en tiret le seuil de 2p/n. 


Les points leviers sont donc des points atypiques au niveau des variables expli- 
catives. Là encore il est bon de les repérer et de les noter, puis de comprendre 
pourquoi ces points sont différents : erreur de mesure, erreur d’enregistrement, ou 
appartenance à une autre population. Il faut aussi se poser la question de la validité 
du modèle jusqu’à ces points extrêmes. Peut-être aurait-on, avec plus de mesures 
autour de ces points, un modèle qui changerait, annonçant un modèle différent 
pour cette population ? Après mûre réflexion ces valeurs pourront être éliminées 
ou conservées. Dans le premier cas, aucun risque n’est pris au bord du domaine, 
quitte à sacrifier quelques points. Dans le second cas, le modèle est étendu de 
manière implicite jusqu’à ces points. Dans certains problèmes, en analysant les 
points leviers, on peut retrouver deux (ou plusieurs) groupes de valeurs et donc 
deux (ou plusieurs) sous-populations, il est alors important de se poser la question 
de la pertinence d’un seul modèle pour toutes les données ou de faire plusieurs 
sous-modèles. 

L'analyse des résidus permet de trouver des valeurs atypiques en fonction de la 
valeur de la variable à expliquer. L’analyse de la matrice de projection permet de 
trouver des individus atypiques en fonction des valeurs des variables explicatives 
(observations éloignées de la moyenne). D’autres critères vont combiner ces deux 
analyses. 


3.3 Autres mesures diagnostiques 


La distance de Cook mesure l'influence de l’observation à sur l’estimation du 
paramètre 8. Pour bâtir une telle mesure, nous considérons la distance entre l’es- 
timateur des moindres carrés B et l’estimateur des moindres carrés Ba calculé sans 
la 2° observation. Si la distance est grande, alors l’observation à influence beaucoup 
l’estimation de B, puisque sa présence ou son absence conduit à des estimations 
éloignées. B et Ba étant dans R?, une distance batie sur un produit scalaire s’écrit 


dôa Â = (Ba) -Vba — Ê), 
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ou Q est une matrice symétrique définie positive. L’équation donnant une région 
de confiance simultanée (voir 5.4, p. 94) 


1 
po? 


RCa(8) = {BER Sal- AVAX- A) < fenol- 0)}. 
permet de dire que dans 95 % des cas, la distance (associée à Q = X’ X/pô?) entre 
p et B est inférieure à f,n_p(1 — a). Par analogie, nous pouvons donc utiliser 
cette distance, appelée distance de Cook, pour mesurer l'influence de l'observation 
i dans le modèle. 


Définition 3.4 (Distance de Cook) 
La distance de Cook pour la ième observation est donnée par 
1 A AV 1 À A 
CG = ba — BY (XX) (Bw — 8). 
pô 
Elle peut se récrire de manière plus concise et plus simple à calculer : 


1 hü o hii & 


~ pl—hy* pl hi) ô? 


Ci 


Une observation influente est donc une observation qui, enlevée, conduit 4 une 
grande variation dans l’estimation des coefficients, c’est-à-dire à une distance de 
Cook élevée. Pour juger si la distance C; est élevée, Cook (1977) propose le seuil 
fpn-p(0.1) comme souhaitable et le seuil f,.n_#(0.5) comme préoccupant. Certains 
auteurs citent comme seuil la valeur 1, approximation raisonnable de fp n—p(0.5). 
La distance de Cook (deuxième définition) peut être vue comme la contribution 
de deux termes. Le carré du résidu standardisé t? (voir (3.1)) mesure le degré 
d’adéquation de l’observation y; au modèle estimé x! Ê. Le second terme correspond 
au rapport V(#:)/ V(é;) et mesure la sensibilité de l’estimateur Ê à l'observation i. 
La distance de Cook mesure deux caractères en même temps : le caractère aberrant 
quand t; est élevé et le caractère levier lorsque V(§;)/ V(é;) = hii/1 — hii est élevé. 
Les points présentant des distances de Cook élevées seront des points aberrants, 
ou leviers, ou les deux, et influenceront l’estimation puisque la distance de Cook 
est une distance entre Ê et Bw. 

A l’image des points aberrants et leviers, nous recommandons de supprimer les 
observations présentant une forte distance de Cook. Si l’on souhaite toutefois ab- 
solument garder ces points, il sera très important de vérifier que les coefficients 
estimés et les interprétations tirées du modèle ne varient pas trop avec ou sans ces 
observations influentes. 

La figure (3.7) représente le nuage de points, les résidus studentisés et la distance 
de Cook correspondant au modèle de régression simple pour les points de la figure 
(3.6). Nous voyons que des points admettant de forts résidus (points éloignés de 
la droite) possèdent une distance de Cook élevée (cas des points 4, 6, 12, 29, 44 et 
45). Mais les points leviers possèdent un rapport h;;/(1 — h;;) élevé, par définition. 
Le point 51 bien qu'ayant un résidu faible apparaît comme ayant une distance de 
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Cook relativement forte (la 8° plus grande). Cela illustre bien que la distance de 
Cook opére un compromis entre points aberrants et points leviers. Notons encore 
une fois que le point 51 n’est ni influent ni aberrant. Son résidu té, n’est pas élevé 
et il se situe dans le prolongement de l’axe du nuage, ce qui veut dire que la droite 
ajustée par MC sans ce point est voisine de la droite ajustée par MC avec ce point. 
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Fig. 3.7 — Exemple du point levier (le 51). Les points associés aux 8 plus grandes 
valeurs de la distance de Cook sont numérotés ainsi que leur distance de Cook et 
leurs résidus studentisés (par VC). La droite en trait plein est la droite des MC. 


Notons enfin que les seuils de la distance de Cook sont f,n-p(0.5) = 0.7 et 
fpn-p(0.1) = 0.11, ce dernier figurant en pointillé sur le graphique (3.7). Ici les 
distances de Cook semblent assez bien réparties au niveau hauteur et aucun point 
ne se détache nettement. 

En utilisant encore les mêmes 50 points mais en remplaçant le point levier par un 
point clairement aberrant (mais non levier), nous voyons que ce nouveau point 51 
est bien aberrant (fig. 3.8), son résidu ti, est en effet très élevé. 
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Fig. 3.8 — Exemple du point fortement aberrant (numéro 51). Les points associés 
aux 8 plus grandes valeurs de la distance de Cook sont numérotés, ainsi que leur 
distance de Cook et leurs résidus studentisés (par VC). La droite en trait plein est 
la droite ajustée par MC. 


La distance de Cook, malgré la position de ce point 51 vers le milieu des x, est 
élevée et cela uniquement à cause de son caractère aberrant. Bien entendu un point 
peut étre a la fois levier et aberrant. Ici la distance de Cook du point 51 se détache 
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nettement, indiquant que ce point pourrait étre éventuellement supprimé. Le seuil 
de fpn-p(0.5) semble assez conservateur. 

Une autre mesure d’influence est donnée par la distance de Welsh-Kuh. Si l’on 
reprend la définition de la distance de Cook pour l’observation 7, elle s’écrit comme 
(Gi — x Bs)? /6? à 1/p près. Cela représente le carré de V’écart entre ĝ; et sa 
prévision ĝ? divisé par la variance estimée de erreur. Il faut donc utiliser un 
estimateur de o?. Si l’on utilise l’estimateur classique 6?, alors une observation 
influente risque de « perturber » l'estimation 6?. Il est donc préférable d’utiliser 
CAE 

Définition 3.5 (DFFITS) 

L'écart de Welsh-Kuh, souvent appelé DFFITS dans les logiciels, est défini par 


hii 
1— hig 


Wk; = |t| 


Cette quantité permet d'évaluer l'écart standardisé entre l’estimation bâtie sur 
toutes les observations et l’estimation bâtie sur toutes les observations sauf la 
i*. Cet écart de Welsh-Kuh mesure ainsi l'influence simultanée d’une observation 
sur l'estimation des paramètres 8 et o?. Si l'écart de Welsh-Kuh est supérieur 
à 2/p + 1/Vn en valeur absolue, alors il est conseillé d’analyser les observations 
correspondantes. 

D’autres mesures diagnostiques sont données dans le livre d’Antoniadis et al. (1992, 
pp 36-40). En guise de remarque finale, la régression robuste est une alternative très 
intéressante si le problème des observations influentes s’avére délicat (Rousseeuw 
& Leroy, 1987). 


3.4 Effet d’une variable explicative 


3.4.1 Ajustement au modèle 


Nous désirons savoir si la modélisation de l’espérance de Y par XB, estimée par 
XB, est correcte. Le modèle est-il satisfaisant ou ne faudrait-il pas rajouter de 
nouvelles variables explicatives ou de nouvelles fonctions fixées des variables ex- 
plicatives et lesquelles ? Dans ce paragraphe, nous nous posons la question de la 
qualité d’ajustement du modèle pour une variable explicative X; donnée, ce qui 
revient aux trois questions suivantes : 


1. cette variable X; est-elle utile? 


2. est-ce que cette variable agit linéairement sur la prévision de Y ou faut-il in- 
troduire une transformation de cette variable f(X;) ? 


3. quelle transformation f(X;) est à introduire afin d'améliorer le modèle ? 


Pour répondre à ces questions, remarquons que l’on peut toujours utiliser les procé- 
dures de choix de variables (voir chapitre suivant) ainsi que les tests entre modèles 
emboîtés : 
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e si l’on se pose la question de l’utilité de la variable X; on peut tester 
Ho: 6; =0 contre Hı: 6; 40 ou écrit différemment 


P 
Ho : E(Y) = 5 bkXęk contre Hı: E(Y)= X8. 
k=1,k£j 


e si l’on se pose la question d’une transformation f(X;) notée Xp+ı on peut 
tester 


Ho : E(Y) = XB contre Hı : E(Y) = XB + Bp+1Xp+1- 


Cependant, sans connaître a priori f(.), il est impossible d’effectuer le test. Ce 
paragraphe va proposer des outils graphiques permettant de répondre à ces trois 
questions rapidement, en conservant à l'esprit que la première question peut être 
résolue avec un test que nous verrons plus en détails au chapitre 5. 


3.4.2 Régression partielle : impact d’une variable 
Afin de connaître l’impact de la j° variable X; lors d’une régression : 


1. nous effectuons d’abord une régression avec les p—1 autres variables. Les résidus 
obtenus correspondent alors à la part de Y qui n’a pas été expliquée par les p — 1 
variables ; 


2. la seconde partie de l’analyse correspond alors à l’explication de ces résidus 
non pas par la variable X; mais par la part de la variable X; qui n’est pas déjà 
expliquée par les p — 1 autres variables. 


Tout d’abord supposons que le modèle complet soit vrai, c’est-à-dire que 


Y = XB+E. 


Afin d'analyser l'effet de la j° variable Xj, partitionnons la matrice X en deux, 
une partie sans la j° variable que nous notons Xj et l’autre avec la j° variable X;. 


Le modèle s'écrit alors 
Y = Xb; + ByXj +e, 


ou f; désigne le vecteur 3 privé de sa j° coordonnée notée B;. Afin de quantifier 
l'apport de la variable Xj, projetons Y sur l’orthogonal de S(X;). Nous noterons 
cette projection Py.. Nous avons alors 
J 
PxıY = Poe PRE Pyx1e 
4 J a a 
J a a 
Py Y = Bj Pxi Xj aps (3.3) 
J J 
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Nous avons donc un modèle de régression dans lequel nous cherchons à expliquer 
une variable (aléatoire) Pxi¥ par un modèle linéaire dépendant d’une variable 


fixe FRA) additionnée à un bruit aléatoire n= Pee 


Cette équation suggère que si le modèle complet est vrai, alors un modèle de 
régression univariée est valide entre Py Y et Pyi Xj; et donc qu’il suffit de dessiner 


Px Y en fonction de Py X; pour le vérifier graphiquement. Ce graphique est 
appelé graphique de la régression partielle pour la variable X; : 

1. si les points forment une droite de pente 8; 4 0, alors le modèle pour la variable 
X; est bien linéaire ; 

2. si les points forment une droite de pente presque nulle, alors la variable X; n’a 


aucune utilité dans le modèle; 


3. si les points forment une courbe non linéaire f, il sera alors utile de remplacer 
X; par une fonction non linéaire dans le modèle complet. 

Remarquons l'utilité de l’abscisse, qui est Py Xj; et non pas directement Xj. 

a 

Cette abscisse représente la projection de la variable X; sur les autres variables 
explicatives Xj, c’est-à-dire la partie de X; non déjà expliquée linéairement par les 
autres variables, ou autrement dit la partie de l'information apportée par X; non 
déjà prise en compte par le modèle linéaire sans cette variable. Cela permet donc 
de faire apparaître uniquement la partie non redondante de l’information apportée 
par X; pour l'explication linéaire de Y (voir exercice 3.6). 


Proposition 3.1 (Régression partielle) 
Notons Pj Vestimateur des moindres carrés de B; dans le modèle de régression 


simple (3.3). Notons Ê; la 7° composante de B, l’estimateur des moindres carrés 
obtenu dans le modèle complet. Nous avons alors 


LE” 


3.4.3 Résidus partiels et résidus partiels augmentés 

Le problème de l’utilisation du graphique précédent correspond au calcul des abs- 
cisses Py. Xj. Afin de contourner ce problème et d'obtenir un graphique facile à 
effectuer, nous définissons les résidus partiels : 


Définition 3.6 (Résidus partiels) 
Les résidus partiels pour la variable X; sont définis par 


= ê+ fj Xj. (3.4) 
Le vecteur ê correspond aux résidus obtenus avec toutes les variables et B; est la 


J 


© coordonnée de B estimateur des MC obtenu dans le modèle complet. 


Un graphique représentant X; en abscisse et ces résidus partiels en ordonnée aura, 
si le modèle complet est valide, une allure de droite de pente estimée Ê; par MC. 
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En effet, la pente de régression univariée estimée par MC est (voir équation 1.4) 


(hX) L (EX; + ÊX Xa) _ (Px2 ¥ Xj) + By (XG, Xi) à. 
(Xj, Xj) (Xj, X5) (Xj, X5) | 


Il est en général préférable d’enlever l’information apportée par la moyenne com- 
mune à chacune des variables et de considérer ainsi les variables centrées et les 
résidus partiels correspondants 


& = Ê+ÿ1+B;(X; — À;), 


où X; est le vecteur de R” ayant toujours la même coordonnée : 5%, tj/n. 
Les graphiques des résidus partiels sont à l’image de ceux des régressions partielles, 
ils comportent pour chaque variable X; en abscisse cette variable X; et en ordonnée 
les résidus partiels correspondants om Si le modéle complet est vrai, le graphique 
montre une tendance linéaire et la variable X; intervient bien de manière linéaire. 
Si par contre la tendance sur le graphique est non linéaire selon une fonction f(.), 
il sera bon de remplacer X; par f(X;). 

Le fait d’utiliser X; en abscisse pour les graphiques des résidus partiels permet de 
trouver beaucoup plus facilement la transformation f(X,) que dans les graphiques 
des régressions partielles correspondants. Par contre, en n’enlevant pas à X; lin- 
formation déjà apportée par les autres variables, la pente peut apparaître non nulle 
alors que l'information supplémentaire apportée par X; par rapport à X; n’est pas 
importante. Cela peut se produire lorsque X; est très corrélée linéairement à une 
ou plusieurs variables de X;. On peut alors avoir recours à une procédure de test 
ou de sélection de modèle dans ce cas. Si l'objectif est de vérifier que la variable 
Xj agit linéairement dans le modèle et de vérifier qu'aucune transformation non 
linéaire f(X;) n’améliorera le modèle, il est alors préférable d'utiliser les résidus 
partiels. 

Des résultats empiriques ont montré que, dans certaines situations, les résidus 
partiels augmentés (Mallows, 1986) peuvent être meilleurs que les résidus partiels. 


Définition 3.7 (Résidus partiels augmentés) 
Les résidus partiels augmentés pour la variable X; sont définis par 


Aj a Ak A A 2 
Eap = € + dj Xj + Ap+1X);, 


où ê = Y*-Y et Ÿ* = (X|X7)a est l’estimation de Y par le modèle complet 
augmenté d’un terme quadratique Y = X18, +...+ Xpbp + X? Bp+1 + €. 


On peut encore utiliser une autre version sans l’effet de la moyenne 
à a oe z is 5 1 F 
Epi = & + y + (Xi; — Xj) + Apt (Xig Xp =D (Xi - À) 


Nous renvoyons le lecteur intéressé par l’heuristique de ces résidus partiels à l’ar- 
ticle de Mallows (1986). 
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3.5 Exemple : la concentration en ozone 


Revenons à l’exemple de la prévision des pics d’ozone. Nous expliquons le pic 
d’ozone 03 par 6 variables : la teneur maximum en ozone la veille (03v), la tempé- 
rature prévue par Météo France à 6 h (T6), à midi (T12), une variable synthétique 
(la projection du vent sur l’axe est-ouest notée Vx) et enfin les nébulosités prévues 
à midi (Ne12) et à 15 h (Ne15). Nous avons pour ce travail n = 1014 observations. 


| > ozone <- read.table("ozone_long.txt", header = T, sep = ";") 
> p <- ncol(ozone) ; n <- nrow(ozone) 
> mod.lin6v <- 1m(03-T6 + T12 + Ne12 + Nei5 + Vx + O3v,data=ozone) 


Commençons par représenter les résidus studentisés en fonction du numéro d’ob- 
servation qui correspond ici à l’ordre chronologique. 


> plot(rstudent (mod.lin6v), pch = ".", 

+ ylab = "Résidus studentisés par VC") 
> abline(h = c(-2,2)) 

> lines(lowess(rstudent (mod.lin6v))) 


~ 850 


Résidus studentisés par VC 


= 797 


+ . 611 
0 200 400 Index 600 800 1000 
Fig. 3.9 — Résidus studentisés par VC du modèle de régression à 6 variables. 


Les résidus studentisés (fig. 3.9) font apparaître une structuration presque négli- 
geable en forme de sinusoïde en fonction du numéro des observations, ou du temps, 
les observations étant rangées par date de mesure. Cela peut paraître courant 
puisque nous avons des variables mesurées dans le temps et cette légère variation 
peut être vue comme une autocorrélation (éventuelle) des résidus. 

Nous avons 1014 observations, il est normal qu’un certain nombre de résidus ap- 
paraissent en dehors de la bande (—2,2). Seules les 3 observations franchement 
éloignées de l’axe horizontal (les numéros 611, 797 et 850) peuvent sembler aber- 
rantes. Ces observations sont donc mal expliquées par le modèle à 6 variables. 
Une analyse complémentaire sur ces journées pour mieux comprendre ces individus 
pourrait être entreprise : sont-ils dus à une erreur de mesure, à une défaillance de 
Vappareillage, à une journée exceptionnelle ou autre? Ces points sont mal prédits 
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mais ne sont pas forcément influents et ne faussent donc pas forcément le modèle. 
Il n’y a donc pas lieu de les éliminer même si l’on sait qu’ils sont mal expliqués. 
Bien que nous n’utilisions pas l’hypothèse de normalité ici, nous pouvons tracer à 
titre dexemple le graphique Quantile-Quantile. 


> plot(mod.lin6v, which = 2, sub = "", main = "") 
> abline(0,1) 


Nous observons sur le graphique (3.10) que la normalité semble bien respectée, 
tous les points étant sur la première bissectrice. Nous apercevons encore les points 
aberrants numéros 611, 797 et 850. 


+ 


-3 ~2 -1 0 1 2 3 
Fig. 3.10 — Q-Q plot pour le modèle à 6 variables explicatives. 


Représentons maintenant les points leviers et influents grâce aux codes 


plot(cooks.distance(mod.lin6v) ,type="h",ylab="Distance de Cook") 
seuili <- qf(0.1,p,n-p) ; abline(h=seuil1) 

infl.ozone <- influence.measures(mod.lin6v) 

plot (infl.ozone$infmat[,"hat"] ,type="h",ylab="hii") 

seuill <- 3*p/n ; abline(h=seuill,col=1,1ty=2) 

seuil2 <- 2*p/n ; abline(h=seuil2,col=1,1ty=3) 
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Fig. 3.11 — Distance de Cook (a) et points leviers (b). 
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Aucune observation (fig. 3.11) ne montre une distance de Cook nettement supé- 
rieure aux autres et il ne semble pas y avoir d’observation trés influente. Le seuil 
fpn-p(0.1) = 0.4 est supérieur à toutes les observations. Au niveau des points le- 
viers, beaucoup d’individus sont supérieurs au seuil indicatif de 2p/n, 8 seulement 
sont au-dessus du seuil de 3p/n et enfin aucun n’est aux environs de 0.5. De ma- 
niére plus générale les h;; sont peu différents les uns des autres, nous conservons 
toutes les observations. Nous avons vu que le graphique d’ajustement global, ré- 
sidus studentisés en fonction d’un indice, montre une légère oscillation. Cela peut 
être dû à une autocorrélation des résidus, donc une mauvaise structure de variance 
des résidus, qui n’est donc pas diagonale : V (e) 4 a?1,. Cependant, cela peut aussi 
être dû à une mauvaise modélisation de la moyenne. Nous allons donc considérer 
les graphiques des résidus partiels pour toutes les variables explicatives. 

Le graphique des résidus partiels est obtenu grâce aux commandes suivantes (les 
ordres étant identiques pour chacune des variables, nous ne donnons que ceux 
concernant la variable 03v) : 


residpartiels <- resid(mod.lin6v, type = "partial") 

prov <- loess(residpartiels[,"03v"] ~ ozone$03v) 

ordre <- order (ozone$03v) 

plot (ozone$03v, residpartiels[,"03v"], pch=".",ylab="",xlab="") 
matlines(ozone$03v [ordre], predict (prov) [ordre] ) 
abline(lsfit(ozone$03v, residpartiels[,"03v"]), lty = 2) 
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Nel5 Vx O3v 
Fig. 3.12 — Résidus partiels pour les 6 variables explicatives. Le trait continu 
représente le résumé lissé des données par le lisseur loess. 
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Les graphiques des résidus partiels (fig. 3.12) pour les variables T6, Ne12, Ne15 et 
03v montrent qu’aucune transformation n’est nécessaire, les résidus partiels étant 
répartis le long de la droite ajustée (en pointillé). 

Pour la variable T12 on note que le nuage est réparti en deux sous-ensembles : avant 
22 degrés C ou après. Chacun de ces deux sous-ensembles semble être réparti le 
long d’une droite de pente différente. Nous allons donc ajouter une variable qui va 
prendre la valeur 0 si T12< 22 et les valeurs (T12-22) si T12> 22. Le R? passe de 
0.669 a 0.708. L’ajustement est donc grandement amélioré par cette variable. 
Pour la variable Vx nous retrouvons une légère tendance sinusoidale autour de 
l’axe des abscisses, indiquant que la variable Vx semble avoir peu d’influence. Si 
Von ajuste une sinusoide et que l’on remplace la variable Vx par la fonction f(Vx) = 
—4.54 cos{0.45(10.58 — Vx)}, le R? passe à 0.713. Cependant, cette fonction ainsi 
que la fonction linéaire par morceau pour T12 dépendent des données et ne sont 
pas des fonctions fixées a priori avant le début de l’étude. 

Pour toutes les variables, les résidus partiels augmentés offrent exactement les 
mémes représentations et ne sont donc pas représentés ici. 


3.6 Exercices 


Exercice 3.1 (Questions de cours) 
1) Lors d'une régression multiple, la somme des résidus vaut zéro : 
A. toujours, 
B. jamais, 
C. cela dépend des variables explicatives utilisées. 
2) Les résidus studentisés sont-ils 
A. homoscédastiques, 
B. hétéroscédastiques, 
C. on ne sait pas. 
3) Un point levier peut-il étre aberrant ? 
A. toujours, 
B. jamais, 
C. parfois. 
4) Un point aberrant peut-il être levier ? 
A. toujours, 
B. jamais, 
C. parfois. 
5) La distance de Cook est-elle basée sur un produit scalaire ? 
A. oui, 
B. non, 
C. cela dépend des données. 


Exercice 3.2 (Propriétés d’une matrice de projection) 
Considérons la matrice de projection orthogonale sur l'espace engendré par les colonnes de 
X Px de terme courant h;;, montrer que 

1) tr(Px) = > hii = p. 

2) tr(Px) = tr(Px Px) c'est-à-dire 37, >, h} =p. 

3) 0 < his < 1 pour tout i. 
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4) —0.5 < hij < 0.5 pour tout j différent de i. 
5) Si hi = 1 alors hi; = 0 pour tout j différent de i. 
6) Si hi = 0, alors hi; = 0 pour tout j différent de i. 


Exercice 3.3 (Lemme d’inversion matricielle) 


Soit M une matrice symétrique inversible de taille p x p, u et v deux vecteurs de taille p. 
Montrer que 


M ‘uv M! 


Ni =i 
(M+uv) =M Ee = 


(3.5) 


Exercice 3.4 (fRésidus studentisés) 
Nous considérons la matrice du plan d'expérience X de taille n x p. Nous notons x! la if 
ligne de la matrice X et Xq) la matrice X privée de la if ligne, de taille (n — 1) x p. 

1) Montrer que X’X = X() Xa) + ia}. 

2) Montrer que X(,) Yu) = X'Y — ziyi. 

3) En vous servant de l'équation (3.5), montrer que 


1 
1 — hi 


(XX) = (XX) + (X'X) ri (XX), 


où h est le terme courant de la matrice de projection sur S(X). 
4) Montrer que la prévision de l'observation x; vaut 


1 A. hi , 
-ha Leh” 


ù = 
5) Montrer que les résidus studentisés par validation croisée définis par : 
ĉi 
6ayV1 — hia’ 


où 6) est l’estimateur de ø dans le modèle privé de la if observation, peuvent s'écrire sous 
la forme 


= 


Yi — Ÿ 


t= 


6) Sous l'hypothèse que £ ~ N (0, o° In), quelle est la loi de #* ? 


Exercice 3.5 (Distance de Cook) 


Nous reprenons les notations et résultats des exercices précédents. 
1) Montrer que 


ae 1 z à 
Bay =b- yoy XX) ril — 48). 


2) Montrer que la distance de Cook définie par 


1 a A\l yl À À 
Ci = 262 Pw — BY X°X(B« — 8), 


s'écrit aussi sous la forme 
22 
1 hii ey 
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Exercice 3.6 (Régression partielle) 
Démontrer la proposition (3.1). 


Exercice 3.7 (TP : Résidus partiels) 
Les données se trouvent dans le fichier tprespartiel.dta et tpbisrespartiel.dta, l'objectif de ce 
TP est de montrer que l'analyse des résidus partiels peut améliorer la modélisation. 
1) Importer les données, vous avez une variable à expliquer Y et quatre variables explica- 
tives. 
2) Estimer les paramètres du modèle Y; = Bo + Bi Xi,1 + +: + + Ba X ia + Ei. 
3) Analyser les résidus partiels residuals(...,type="partial"). 
4) Que pensez-vous des résultats ? 
5) Remplacer X4 par X5 = X? dans le modèle précédent. Que pensez-vous de la nouvelle 
modélisation ? On pourra comparer ce modèle à celui de la question précédente. 
6) Analyser les résidus partiels du nouveau modèle. 
7) Faire le même travail pour tp2bisrespartiel. 


Chapitre 4 


Extensions : non-inversibilité 
et (ou) erreurs corrélées 


L’objectif de ce chapitre est de proposer des solutions lorsque les hypothèses clas- 
siques du modèle linéaire ne sont pas vérifiées. Ainsi dans les chapitres précédents, 
nous avons considéré le modèle de régression 


Y = XB+E 


et avons supposé que la matrice X était de plein rang (hypothèse #1) et que la 
variance de € était V(e) = o?1 (hypothèse H2). Il existe de nombreux cas où ces 
hypothèses ne sont pas satisfaites. 

Dans une première partie, nous allons traiter le cas où l’hypothèse Hı n’est pas 
satisfaite. Dans ce cas la matrice X’X n’est pas inversible et l’estimateur des 
MCO n'est donc pas calculable. Nous présentons la régression ridge qui permet de 
pallier à ce problème. Cette méthode sera étudiée dans un contexte plus général 
au chapitre 8. 

Nous traiterons dans une seconde partie le cas où l'hypothèse H2 n’est pas vérifiée 
et nous introduirons la méthode des moindres carrés généralisés (MCG). 


4.1 Régression ridge 


Le problème initial des moindres carrés ordinaires consiste à chercher le vecteur 
de coefficient 5 qui minimise les moindres carrés ordinaires, c’est-à-dire : 


B = argmin ||Y — X8|?. (4.1) 
BERP 


L’hypothése Hı (la matrice X est de plein rang) permet alors de trouver une 
unique solution au problème posé, à savoir B = (X'X)-1X"Y. 

Cependant, dans de nombreux cas, cette hypothèse n’est pas satisfaite. Ainsi, par 
exemple, si p > n il y a plus de coefficients à estimer que d’observations et la 
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matrice X n’est plus de plein rang. Dans ce cas, l'inverse (X’X)~! n’existe plus 
et il n’existe plus de solution unique au probléme des MCO (4.1). 

Une autre situation simple (dans le cas où n > p) est le cas où les variables 
{X1,...,X,} forment une famille liée de R”. Dans ce cas une (ou plusieurs) va- 
riable(s) sont linéairement dépendante(s), c’est-à-dire, 


Xi = Sai Xi. 


iAj 


LL] 
S. 


Lorsque rang(X) < p, la matrice (X’X) n’est pas inversible et la relation donnant 
B n’a plus de sens. Nous pouvons cependant toujours projeter Y sur M(X) mais Ŷ 
n'admet plus une décomposition unique sur les colonnes de X (fig. 4.1) comme nous 
pouvons l’observer sur le graphique suivant. Le modèle n’est alors pas identifiable. 


X2 


| =- . 
Fig. 4.1 - Décomposition de Y dans M(X). Dans cet exemple nous avons Y = 
1x Mlk 5K = 2/3 x Xə + 1/3X3. 


Remarquons enfin que lorsque X est de plein rang, la variance de B vaut 
VÊ) = XXY". 

et dépend directement du rang de X. Ainsi, même lorsque X est de plein rang 
mais que X; ~ )7,,; aiX; (on dit souvent « les variables (explicatives) sont très 
corrélées (empiriquement !) »), la variance des estimateurs aura tendance à être 
élevée et la précision va diminuer. Il est donc important d'utiliser des méthodes 
adaptées à la déficience de rang. Une méthode assez ancienne pour rendre une 
matrice inversible consiste à modifier sa diagonale. 


4.1.1 Une solution historique 


Cette méthode a été proposée par Hoerl & Kennard (1970) et consiste à remplacer 
(X’X)~1 par (X’X + AJ) -!. Nous obtenons alors l’estimateur ridge 


Bridge (À) = (X'X + MOY, 


1. Il ne s’agit pas à proprement parler de corrélation, puisque la corrélation empirique simple 
ne concerne que deux variables (voir exercice 4.2). 
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où À est une constante positive à déterminer. Le choix de À est très important 
pour la performance de la méthode. En effet, 

— Briage(À) ~ 0 pour des valeurs de À élevées ; 

— Briage(À) ~ B pour de faibles valeurs de À et dans le cas où B existe. 


4.1.2 Minimisation des MCO pénalisés 


Nous avons vu dans la partie précédente que la présence de colinéarité entre les 
colonnes de X a tendance a faire augmenter la variance des estimateurs. Une 
approche permettant de diminuer cette variance consiste pénaliser le critére des 
MCO par la norme des paramètres. On est alors amené à minimiser 


IY — X81? + AAN. (4.2) 


où À > 0 est un paramètre à calibrer. D’autres pénalisations sont possibles et cela 
sera traité en détail au chapitre 8. Pour obtenir la solution de ce problème, nous 
dérivons par rapport à 8 


2(—X")(Y — XB) + 28. 
Et en annulant la dérivée, nous obtenons comme solution 
Paani Cn es 
On remarque donc que la solution du problème (4.2) est l’estimateur ridge proposé 


par Hoerl & Kennard (1970). 


4.1.3 Equivalence avec une contrainte sur la norme des co- 
efficients 


Une autre façon de voir la méthode ridge consiste minimiser le critère des MCO 
sous une contrainte portant sur la norme des paramètres. On considère l’estimateur 
6 défini par 


B= argmin ||Y — X6], (4.3) 
BERP,|| ||? <5 


où ô > 0 est un paramètre à calibrer. Nous calculons le Lagrangien pour obtenir 
la solution du problème 


IY — XB1? + a(l? — 6). 


Une condition nécessaire d’optimum est donnée par l’annulation de ses dérivées 
partielles au point optimum (6, à) : 


2X'(Y — XB) + 2718 
IA? -6 = 


(4.4) 


l 
S © 
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La première équation montre que la solution de ce problème est l’estimateur ridge 
B = Bridge = (X'X + fil) *X'Y. 


/ 


ridge Cela donne 


Afin de calculer la valeur de &, pré-multiplions (4.4) à gauche par B 
jt = (Gay = Phare X’ X Bridge) ||| Êriagell?. On peut également vérifier que ce 
couple est bien un minimum de la fonction en remarquant que le hessien ? est bien 
une matrice symétrique de la forme A’A, donc semi-définie positive. 
Géométriquement, la régression ridge revient à chercher dans une boule de R? 
de rayon ô, le coefficient Îriäge le plus proche au sens des moindres carrés. En 
nous plaçant maintenant dans l’espace des observations R”, l’image de la sphère 
de contrainte par X est un ellipsoïde de contrainte. Puisque l’ellipsoïde est inclus 
dans S(X), dans le cas où 6 est « petit », le coefficient optimum Îriage est tel que 
X Bridge est la projection de X sur cet ellipsoide de contrainte (voir fig. 4.2). Dans 
le cas contraire où ||5||? < 5, Ê est dans ou sur l’ellipsoïde et donc sa projection 
reste égale a B. 


Fig. 4.2 — Contrainte sur les coefficients et régression ridge : Îriage représente 
l’estimateur ridge et 8 représente l’estimateur des MC. 


Le problème de régression sous contrainte de norme sera abordé plus en détails 
dans le chapitre 8. 


4.1.4 Propriétés statistiques de ľestimateur ridge Didas 
Revenons aux définitions des estimateurs ridge et MC : 

Bridge = (X'X+AD71X'Y 
B = (X'X)LU’Y. 
En pré-multipliant la seconde égalité à gauche par X’X, nous avons X'X8 = X'Y, 
cela donne alors 


Badge = (X'X + ADIX'XÊ. 


2. Matrice des dérivées secondes de la fonction. 
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Cette écriture permet de calculer facilement les propriétés de biais et de variance 
de l’estimateur ridge. Le calcul de l’espérance de l’estimateur ridge donne 
E(Briage) = (X'X + M)71(X'X)E(8) 
= (X'X +I)! (X'X) 8 
(X'X + AD)! (X'X + AI — ADB 
B—)X(X'X + AI) 8. 


Le biais de l’estimateur ridge vaut donc 
B(Brage) = —-AX'X+M) 1. (4.5) 


En général cette quantité est non nulle, l’estimateur ridge est biaisé et la régression 
est dite biaisée. Calculons la variance de l’estimateur ridge : 


V(Bridge) = V((X'X +1)71X'Y) 
= (X'X + ADI XV(Y)X(A'X + XI) ! 
(XX + M) X'X(X'X + AD. (4.6) 


L’estimateur ridge est biaisé, ce qui constitue un handicap par rapport à lesti- 
mateur des MC. En revanche, sa variance fait intervenir (X’X + AJ)~! et non 
pas (X’X)~!. Or l'introduction de AI permet d’augmenter les valeurs propres de 
(X'X + ÀÏ) et donc de diminuer la variance. 

Après avoir calculé le biais et la variance de cet estimateur, nous allons calculer 
son EQM (voir p. 39) et le comparer à celui de l’estimateur des MC : 


EQM(8) 
EQM (Bridge) 


o? (X' X)! 
E(Gridge E B)E(Bridge m BY + V (Bridge) 
(XX + AT) BB'(X'X + AD) 
o° (X'X + ADT X'X(X'X +M) 
(X'X + M) [A? BB" + 0? (X'X)] (XX + AT) 


Il est difficile de comparer deux matrices, aussi nous prendrons une mesure de la 
qualité globale via la trace. Lorsque nous considérons la trace de la matrice de 
VEQM, nous avons 


tr[EQM(8)] = o?tr((X'X) 1!) = 0? 


À: 
ja 7? 


où x} sont les valeurs propres de X’X. Comme certaines de ces valeurs 
propres sont nulles ou presque nulles, la trace de PEQM est donc infinie ou très 
grande. Nous pouvons montrer que la trace de la matrice de l’'EQM de l’estimateur 
ridge (voir exercice 4.3) est égale à 


o° À; + XI [Pe 
- eee 


` 1 —_ Û . / 
(Oy +A)? où XX = Pdiag(d;)P’. 


tr[EQM (Briage)] 
=1 


78 Régression avec R 


Cette dernière équation donne la forme de l’EQM en fonction du paramètre de 
la régression ridge À. Nous pouvons trouver une condition suffisante sur À (voir 
exercice 4.3), condition indépendante des variables explicatives, 


20? 
< — — 
Es B'B bi 
qui permet de savoir que la trace de PEQM de l’estimateur ridge est plus petite 
que celle de l’estimateur des MC. Autrement dit, quand À < 20?/B'B, la régression 
ridge est plus précise (dans l’estimation des paramètres) que la régression ordinaire, 
au sens de la trace de l'EQM. Cependant, cette condition dépend de paramètres 
inconnus £ et g? et elle n’est donc pas utilisable pour choisir une valeur de À. 
Remarquons que si X est orthogonale alors par définition X’X = I et donc la 
définition de la régression ridge revient a diviser Ê = X'Y Vestimateur des MCO 
par (1+ À) et donc à « diminuer » les coefficients d’une même valeur, à l’image de 
Vestimateur de James-Stein (8.3.3 p. 205). 
Nous n’aborderons pas la mise en pratique de la régression ridge et du choix 
important du paramètre À, cela sera fait dans le chapitre dédié à la réduction de 
dimension 8. 


À 


4.2 Erreurs corrélées : moindres carrés générali- 
sés 

Il existe des cas fréquents où l'hypothèse Hə (variance des erreurs constante et 

erreurs non corrélées) n’est pas satisfaite. Les cas rencontrés dans la pratique 

peuvent être regroupés en deux catégories : 

1. La variance des erreurs n’est pas constante, la matrice de variance de € reste 

diagonale mais les termes de la diagonale sont différents les uns des autres, on 


parle alors d’hétéroscédasticité par opposition au cas classique d’homoscédasticité 
où la variance des erreurs est identique et égale à o°. 


2. Les erreurs sont corrélées entre elles, la matrice de variance de € n’est plus 
diagonale. 


Notons la matrice de variance-covariance des erreurs X, = 029. Cette matrice Q 
est symétrique définie positive? et de rang n. Nous allons tout d’abord analyser, 
en supposant 2 connue, l’impact de cette modification sur les propriétés des esti- 
mateurs des MC. L’estimateur des MC est toujours défini par 8 = (X/X)-!X'Y 
et reste sans biais 


E(B) = (X’X)*X’E(Y) = 8, 
mais sa variance a changé et vaut 


v(8) = (X'X) !X! VY)X(X'X) ! = a?(X'X) 1 XOX (XX) 


3. Une matrice de variance-covariance est toujours définie positive. 
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et dépend donc de Q. L’estimateur n’est plus de variance minimale parmi les 


estimateurs linéaires sans biais. En ce qui concerne l’estimateur 6? de o7, son 


biais dépend aussi de Q comme le montrent les calculs suivants : 


o2 


tr(P£Q). 


1 1 
— pele Pre) = aa eE Sea Hip 
L’estimateur 6? ne semble pas adapté puisqu'il est biaisé. 
Au cours de cette section, nous allons construire des estimateurs adaptés au pro- 
blème. Dans un premier temps, nous allons nous intéresser au cas le plus simple, 
celui de l’hétéroscédasticité et obtenir un estimateur par moindres carrés pondé- 
rés. Nous généraliserons ensuite au cas où 2 est définie positive, donnant ainsi la 
méthode des moindres carrés généralisés. 


4.2.1 Erreurs hétéroscédastiques 
Considérons donc le modèle 
Y=XB+e, E(e)=0 et V(e) = 070 =o? diag(wf,:-: ,w2). 


Une ligne de cette écriture matricielle s’écrit alors 
Yi = Bit +- + pin + €i- 


Une méthode pour obtenir un estimateur sans biais de variance minimale consiste 
à se ramener à Ho et à utiliser l’estimateur des MC. Il faudrait donc avoir une 
variance des résidus constante. En divisant chaque ligne par w; nous obtenons 


Vi Lil Lip Ei 

Z = By pe + Bp } 

Wi Wi Wi Wi 
* S * * * 

Ye = Brit: + pli t Ei- 


La variance de e* est constante et vaut o2. Nous pouvons donc appliquer les 
moindres carrés ordinaires sur les variables transformées. Nous obtiendrons un 
estimateur linéaire sans biais de variance minimale. 

Ecrivons cette transformation en écriture matricielle. Définissons 91/2 la matrice 
diagonale des racines carrées des éléments de Q. Nous avons bien évidemment 
Q1/2Q1/2 = Q. L'inverse de la matrice Q1? est une matrice diagonale dont les 
termes diagonaux sont les inverses des termes diagonaux de 21/2, nous noterons 
cette matrice (71/2, c’est-à-dire 


1 
w? i 


Wy 

Q = a et Q712 = | 
2 1 
Wn ae 

L’écriture matricielle de la transformation proposée ci-dessus est donc 


Q-1/2y = OAR BOs 
Y* = XB+. 
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Afin de simplifier certaines explications, nous nous référerons à cette modélisation 
sous le terme « modèle (*) ». La variance de £* vaut 


V(E*) = 02Q71/2QQ-1/2 = 02Q71/291/291/29-1/2 a o? In. 


Les hypothèses classiques sont vérifiées, nous pouvons estimer ( par la méthode 
des moindres carrés, nous obtenons 


Boe = QE XYY* = (XQ a ae = 


Théorème 4.1 (Gauss-Markov) 
L’estimateur Bg est sans biais de variance o?(X'Q7'X)~! minimale. 


Nous démontrerons ce théorème dans la partie suivante. 


Les valeurs ajustées Y sont obtenues par 
Ye = XÂĝo. 


Les résidus valent donc 


Remarque 

En pratique, il est impossible d’utiliser cette méthode sans connaître les {w;}. En 
effet, pour passer au modèle (*), nous supposons les {w;} connus. Si les w; sont 
inconnus, nous allons devoir les estimer ainsi que les p paramètres inconnus du 
modèle. Il est impossible d’estimer n + p paramètres avec n observations. Il existe 
cependant deux cas pratiques classiques où cette méthode prend tout son sens. 


Cas pratique 1 : régression sur données agrégées par groupes 
Supposons que les données individuelles suivent le modèle classique de régression 
Y=XB+e E(e)=0 V(e)= ln. 


Cependant, ces données ne sont pas disponibles et nous disposons seulement de 
moyennes de groupes d’observations : moyenne d’un site, moyenne de différents 


groupes ou autre... Suite à cette partition en I classes (notées C1,..., Cr) d'effectifs 
ni," Ng avec ni +... + nr =n, nous observons les moyennes par classe : 
7 1 a 1 
UIE > Yi, Tj = — > Til. 
Nj ; Nja 
ieC; iecC; 


Bien évidemment, nous n’observons pas les résidus, mais nous noterons 


= 1 

Ej = — y Ej. 

J nj : a 
iecC; 
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Le modèle devient alors 


a, te 1 1 
Y=XB+E E(e)=0 V(E) =Q = 0° diag(—,--- ,—). 


ni ny 
Les résultats précédents donnent 
ba = (OAK) AIX OY 


Lorsque les données sont agrégées par groupes, il est toujours possible d’utiliser 
Vestimateur des MC. Cependant, cet estimateur n’est pas de variance minimale et 
Vestimateur de ø? obtenu est en général biaisé. Il faut donc utiliser les moindres 
carrés pondérés et leur estimateur ci-dessus. Les logiciels ne permettent pas tou- 
jours de modifier la matrice de variance-covariance des erreurs, l’objectif de ce 
second cas pratique est de montrer le lien entre hétéroscédasticité et régression 
pondérée. La régression pondérée est implémentée dans la plupart des logiciels de 
statistiques. 


Cas pratique 2 : régression pondérée 


Nous connaissons ici Q = diag(w7,w3,...,w2). Nous venons de voir que, si nous 


travaillons dans le modèle (*), nous pouvons appliquer les MC classiques. Le pro- 
blème de minimisation est donc 


2 
n p 
— : * * 
S(6) = min 5 Vi -> Biti; 
i=1 j=l 
2 
n Yi p x 
= mn 2-5 A 
= a = Wi 
i=1 j=l 
2 
n p 
= min > z | Yi- > Biti 
i=1 À j=1 
2 


n p 
= mind pi |y- Y biti 
i=1 j=l 


Les p; sont appelés poids et dans les logiciels ces poids sont en général nommés 
weight. Il suffit donc de remplacer les poids par les 1/w? et d’appliquer le pro- 
gramme de minimisation pour obtenir l’estimateur 


Ba — (OTA ey 
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4.2.2 Estimateur des moindres carrés généralisés 
Nous supposons dans cette partie que le modèle est 
Y=XB+e (4.7) 


et que les hypothèses suivantes sont vérifiées : 

Hı : rang(X) = p, 

Hh: E(e)=0, V(e) = 070, avec rang(Q) =n. 
L’hypothése classique H2 des MC a été modifiée en H5. Afin de démontrer aisément 
pour les estimateurs des moindres carrés généralisés (MCG) toutes les propriétés 
obtenues pour les estimateurs des MC, à savoir la formule de l’estimateur, son 
espérance, sa variance, nous allons proposer un changement de variables. 
La matrice 2 est symétrique définie positive, il existe donc une matrice P inversible 
de rang n telle que Q = PP’. Cette matrice P n’est pas unique. En effet, prenons 
par exemple une matrice orthogonale Q et utilisons Z = PQ qui vérifie Q = ZZ’ 
car PP’ = PQQ'P' = ZZ’. Le choix de P n'intervient pas dans les résultats qui 
suivent. Posons Y* = P~'Y et multiplions à gauche par P7! l'équation (4.7) : 


Pty = P IXB+P !e 
y* = X*B+e*, 
où X* = PIX et e* = P—!e. Dans ce nouveau modèle appelé modèle (*), 


l'hypothèse concernant le rang de X* est conservée, rang(X*) = p. Les hypothèses 
d'espérance et de variance du bruit e* deviennent 


E(e*) = 0 

Vie) = Vip Me = 0° PQP = o°]. 
Le modèle (*) est donc un modèle linéaire qui satisfait les hypothèses des MC. 
Pour obtenir toutes les propriétés souhaitées sur le modèle des MCG, il suffira 
donc utiliser les propriétés du modèle (*) et de remplacer X* par PIX et Y* 
par PHY. 
Estimateur des MCG et optimalité 


Ainsi, l’estimateur des MC du modèle (*) vaut 
B = (XY ame. aus os 
donnant l’estimateur des MCG 
Puce = (X* XX y= C0 Ex) x oy 
Nous avons donc la définition suivante : 


Définition 4.1 
L’estimateur des MCG (ou estimateur d’Aitken) est 


Buce a CO A) XY, 


Extensions : non-inversibilité et (ou) erreurs corrélées 83 


Remarques 
— Nous pouvons réinterpréter l’estimateur des MCG avec la notion de métrique 
particulière de R”. En effet, il existe une multitude de produits scalaires dans 
R”, chacun issu d’une matrice symétrique définie positive M, grâce a 


(u, v) mM = uw Mv. 


Avec cette remarque, l’estimateur des MCG peut être défini comme le vecteur de 
R? qui minimise la norme ||Y — Xa||a-1, définie au sens de la métrique Q 71. Donc 
ce vecteur Bucec est tel que PxY = XBuce, ou Px = = X (Xx! Q- te tx! Q- L 
est le projecteur Q~'-orthogonal sur S(X). Il est bien sûr possible de retrouver 
ce résultat par le calcul en considérant l’orthogonalité entre Y — X Bmcoc et un 
élément de S(X). Pour tout vecteur a € R?, nous avons 


(Xa,Y — XBuce)a-1 
a X'Q HY — XBuce) = 


d’où le résultat. 
définie par UA!/2V’ 


où UAV’ est la décomposition en valeurs singulières de Q. 


Les propriétés concernant l’espérance, la variance de l’estimateur des MCG, i.e. le 
théorème de Gauss-Markov, peuvent être déduites du modèle (*) et conduisent au 
théoréme suivant dont la preuve est laissée a titre d’exercice (voir exercice 4.5). 


Théoréme 4.2 (Gauss-Markov) 
L’estimateur Buca est sans biais de variance 07(X'Q~1X)~+ et meilleur que tout 
estimateur linéaire sans biais, au sens où sa variance est minimale. 


Sous Vhypothése #, l’estimateur des MC, Buc = (X’X)7!X’Y, est toujours 
linéaire en Y et sans biais, mais n’est plus de variance minimale. 


Résidus et estimateur de co? 


Les résidus sont définis par ê = Y — X mca. Remarquons qu’à l’image du vrai 
bruit où nous avons ¢* = P~'e, nous avons pour l'estimation &* = Patê. 
Un estimateur de g? est donné par 


52 _ IY = Xémoalés 
n— p 


Proposition 4.1 
L’estimateur ô? rog est un estimateur sans biais de o?. 
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Preuve 2 : 
(n — p)éroc Y —XBuca,Y — XBmcc)a-1 

Y — Xfmoc) Q (Y — XBucc) 

PP- (Y — XBmoa)) Q (PPY — XBuca)) 

Y* — X*Buca) PA P(Y* — X* Êmca) 


= € 


Dans le modèle (*), ĉ? og est un estimateur sans biais de a, d’où le résultat. 


4.2.3 Matrice Q inconnue 


Dans les problèmes rencontrés, la matrice Q est souvent inconnue. Il faut donc 
l’estimer puis remplacer dans les calculs Q par son estimateur Q. Cependant, si 
nous n’avons aucune information sur Q, il est impossible d’estimer les termes de 
Q car il faut estimer (n? — n)/2 termes non diagonaux et n termes diagonaux. Il 
est cependant possible d’estimer Q dans certains cas particuliers : 

— Q diagonale de forme particulière (voir 4.2.1, p. 80); 

— Q admet une expression particulière paramétrable avec seulement quelques 
paramètres (a?,0) à estimer. 

En règle générale, pour estimer 6, on maximise la vraisemblance £(B, o?,0). Ce- 
pendant, nous allons détailler un premier exemple classique où l'estimation de 0 
est conduite par une procédure beaucoup plus simple. 


Corrélation temporelle Considérons le modèle 
Y=XB+E 


où l'erreur est supposée suivre un processus autorégressif € = pEt—-1 + 7m avec 
0 <p<1et où Cov(n,nj) = 025;;. Notons que o? = o2(1 — p°). La matrice 
(symétrique) de variance 2 des erreurs €, fonction de deux paramètres inconnus 


2 A Ars p 
az et p, s'écrit alors 


1 Pp p? ae p”-} 
1 p ges pr? 

2 

o 
Q= u 
1 — p? 
1 
Le calcul de son inverse donne 
1 =p 0 
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Nous venons de calculer QT! dans ce cas précis. Afin de calculer l’estimateur 
d’Aitken de £, il faut estimer Q7! et donc estimer p. Pour pouvoir estimer p, il 
faudrait disposer des €, et ce n’est évidemment pas le cas. 

Dans la pratique, nous calculons Byc = (X'X)~1X’Y, et calculons les résidus 
E=Y-X B mc. Nous supposons ensuite que êp = p41 + m+, nous pouvons donc 
estimer p par les MC, cela nous donne 


n A A 
R = De EtEt—1 
PMC nn a 
Der 


A partir de cet estimateur, nous estimons 2 par Ô puis appliquons l’estimateur 
d’Aitken : 


Bmce = (X'Q 1x) I XO ly. 


Cet estimateur a été calculé en deux étapes (two stages), estimation des résidus 
par MC puis, a partir des résidus estimés, calcul de Buce. Cet estimateur est 
appelé Êrs pour two stages. Un autre estimateur peut être trouvé en itérant ce 
processus jusqu’à convergence, l’estimateur est alors qualifié d’itéré (iterated). 


4.3 Exercices 


Exercice 4.1 (Questions de cours) 

1) Lorsque la matrice (X'X) n'est pas inversible, l'estimateur des moindres carrés 
A. existe et est unique, 
B. existe et n'est pas unique, 
C. n’existe pas, aucun estimateur ne minimise les moindres carrés. 

2) La variance de l'estimateur ridge est 
A. toujours plus grande que la variance de l'estimateur des MCO, 
B. toujours plus petit que la variance de l'estimateur des MCO, 
C. cela dépend de À. 

3) Nous utilisons les MCG car l'hypothèse suivante n'est pas satisfaite : 
A. Hı le rang du plan d'expérience, 
B. Hz l'espérance et la variance des résidus, 
C. H3 la normalité des résidus. 

4) La matrice de variance de € est Q. Nous calculons Buce et Buc. Avons-nous ? 
A. V(8uca) < V(Buc), 
B. V(Buca) > V(Guc), 
C. les variances ne peuvent pas étre comparées. 


Exercice 4.2 (Corrélation multiple et hypothèse Hı) 

Soit Y une variable continue et X1,..., Xp p variables continues avec X1 = 1n. Le coefficient 
de corrélation linéaire multiple entre Y et X1,..., Xp est défini par la valeur maximale de 
la corrélation (empirique) linéaire p(.) entre Y et une combinaison linéaire des variables 
X1,..., Xp 


R(Y; X) = R(Y; Xı,..., Xp) = sup p(Y; XB). 
BERP 
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1) Etablir que le R? de la régression multiple de Y sur X1,...,Xp est le carré de p(Y; XÊ) 
(indice : montrer que la moyenne empirique de X 3 vaut Y). 
2) Soit 
X1 = 13, X2 = (1/V2, 1/2, V2) et 
— mé +2 $ 
r 2 1)+3V3 2(V2 1) 3v3 oq | vd) | 
v2 v2 
a) Montrer que Y = 2X1 — 2X2 + 3N, où n = (V3/V2, —V3/V2,0)’. 
b) Montrer que | X1|| = ||X2|| = ||7|| et que Xı L X2 1 7. 


) 

, — Z2 
) Trouver Y = PxY. Représenter dans le repére (O, X1, X2,7) OY et OY. 
) Que représente graphiquement p(Y; X6)? 
) 
) 


Q 


Que représente graphiquement p(Y; Xa), avec a = (4, —3)' ? 

Déduire graphiquement que B réalise le maximum de SUD ger? p(Y; XB). 

3) Soit une variable X;. Notons X(;) la matrice X privée de sa j° colonne. Etablir que si 
R(Xj; X (5) = 1, alors Hı n'est pas vérifiée. En déduire alors que si Xj et Xx sont corrélées 
linéairement (p(X;, Xx) = 1 avec j # k), alors Hı n'est pas vérifiée. 


=» © © 


Exercice 4.3 ({EQM de la régression ridge) 
Soit le modèle habituel de régression 


Y = XBr+e. 


1) Donner l'expression de l'estimateur ridge Briage et calculer son biais, sa variance et sa 
matrice de l'EQM. 

2) En utilisant la décomposition en valeurs singulières (ou valeurs propres) de X’X = 
P diag(\,;)P’, établir en utilisant la question 2) de l'exercice 8.4 que 


| “ody + K°[P’ 6]? 
tr(EQM(Briage)) > ea 


j=l 
3) Retrouver que la matrice de l'EQM pour l'estimateur des MC est 


EQM(Buc) = 0°(X'X)~" 
= o*(X'X +I) (XX +r? (X' X) H25) (X'X +kl) © 


4) Calculer la différence entre la matrice de |'EQM pour l'estimateur ridge et celle pour 
l'estimateur des MC et montrer l'égalité suivante : 


A = EQM(Biage) — EQM(Bmc) 
K(X'X Del) (0° Cig + K?°(X'X) +) = KBB NX'X ad. 


5) En utilisant la propriété suivante Si A est inversible, alors une condition nécessaire 
et suffisante pour que B soit semi-définie positive est que ABA’ le soit aussi, déduire 
qu'une condition nécessaire et suffisante pour que A soit semi-définie positive est que 
(o?(21, + K?(X'X)71) — Kp’) le soit aussi. 

6) Démontrer que I, — yy’ est semi-définie positive si et seulement si + < 1 (utiliser 
la décomposition en valeurs singulières (ou propres) de yy’ dont on calculera les valeurs 
propres et le théoréme ci-dessus). 

7) En utilisant la propriété suivante Si A et B sont des matrices semi-définies positives, 
alors pour tout a > 0 et B > 0 la matrice a À + BB est aussi semi-définie positive, déduire 
qu'une condition suffisante pour que A soit semi-définie positive est que kK < 207/68’ B. 
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8) Conclure sur la différence des traces des EQM des estimateurs des MC et ridge. 
Exercice 4.4 (Régression pondérée) 
Nous voulons effectuer une régression pondérée, c'est-à-dire que nous voulons minimiser 


n P 2 
Bpona = argmin > Yi — > Bitij | Pi, 
5 i=1 j=l 


où p; est un réel positif (le poids). 
1) Afin de trouver Buon, trouver un changement de variable dans lequel le critére a mini- 
miser s'écrit comme les moindres carrés classiques avec les nouvelles variables X* et Y*. 
2) En appliquant le changement de variable précédent, trouver l'estimateur na 
3) Montrer que lorsque la seule variable explicative est la constante, la solution est 


à _ D piyi 
m= Dpi 


4) Retrouver un estimateur connu si les p; sont constants pour i = 1,--- ,n. 


Exercice 4.5 (Gauss-Markov) 
Démontrer le Théorème 4.2. 


Exercice 4.6 (Corrélation spatiale) 

Considérons l'exemple du livre de Upton & Fingleton (1985) : l'objectif est d'expliquer le 
nombre de plantes endémiques observées par trois variables : la surface de l'unité de mesure, 
l'altitude et la latitude sur différents sites. Les résidus € admettent une dépendance entre 
sites et nous considérons le modèle : 


Y=XB+e avec e = pMe+n, n~ N(0,0°In), (4.8) 
où M est une matrice connue de dépendance entre sites avec Mii = 0 et définie par la 
distance en miles entre sites grâce à 


My = a > 


où les termes de la matrice D sont définis par 


D. = aps si d(i, j) < 187.5 miles, 
OL 0 si d(i,j) > 187.5 ou si à ou j est une île 


où d(i, 7) est la distance en miles entre le site à et le site j. 
1) Montrer qu'en réécrivant cette équation pour un site į, vous avez 


Ei =p 5 MijEj + mi, 
JAi,5=1 
2) Interprétez cette écriture. Ce modèle est noté SAR pour Simultaneous AutoRegressive. 
3) Montrer à partir de (4.8) que 
(In-pM)e = n 


E (In — pM)~'n = An. 
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4) La variable 7 suit une loi normale N (0, o° In), quelle est la loi de £? 
5) Montrer que la variance de vaut 0?Q = 0? A! A"? 
6) Montrer que la vraisemblance du modèle s'écrit 


L(Y,B,07,p) = (270) #1 exp{- ov - X8) NT (Y -X8)}. 


7) En dérivant la log-vraisemblance et en annulant les dérivées en (Ê, 67, p), montrer que 
B= (OR NO y 
(X'A'AX) 1 X' Al AY. 

Remarquez que B est une fonction de f uniquement. Si nous connaissons À nous connaissons 


B. 
8) Montrer que 


ô = Ly — XB)A'A(Y — X Ê). 


Ainsi, une fois estimé p par f, nous pouvons déterminer B puis à. 
9) Déduire des questions précédentes que 


L(Y, 8, 6°, p) = Log? + 5 tog|A’Al + cte 


10) Montrer que l'opposé de la vraisemblance s'écrit comme une fonction uniquement de / 
(à une constante près) : 


h(p) = 5 log Y'(I—X(X'Ã' ÂX) XA ÂY AAT XR A AX) OR AAY 
-5 log | A’ Al? 
Voici le code pour optimiser cette fonction : 


n <- nrow(don) 

X <- cbind(rep(1,n) ,data.matrix(don[,-1])) 

y <- data.matrix(don[,1]) 

concentree <- function(rho,MM,nn,yy,XX) { 
AA <- diag(nn)-rho*MM 
PP <- AA%*⁄(diag(nn)-XX%*% 

solve(crossprod(AA%*4XX))⁄%*⁄t (XX) 4*/{crossprod(AA))#*x/4yy 

res <- 0.5*nn*log(crossprod(PP))-0.5*(log(det(crossprod(AA)))) 
return(res) 


} 


resconc <- optimize(concentree,c(-1,1) ,MM=M,nn=n,yy=y ,XX=X) 


V++++++VV VV 


Puis pour estimer les paramètres, vous pouvez utiliser : 


> rhoconc <- resconc$minimum 

> A <- diag(n)-rhoconc*M 

> betaconc <- solve(crossprod (A/*/X) ) h*/t (X) 4*/.crossprod(A) 

+ u*/(as.matrix(don[,"nbe.plante"])) 

> sigmaconc <- sqrt(as.vector (crossprod(A/*} 

+ (as.matrix(don[,"nbe.plante"] )-X%*betaconc) ))/n) 


Deuxième partie 


Inférence 


Chapitre 5 


Inférence dans le modèle 
gaussien 


Nous rappelons le contexte du chapitre précédent : 
Ynxı = Xnxp Box + Enx1) 


sous les hypothèses 

— Hi :rang(X) =p; 

— H2: E(e)=0, Ee =0?1l,. 

Nous allons désormais supposer que les erreurs suivent une loi normale, donc H2 
devient 

— H3:e~N(0,071,). 

Nous pouvons remarquer que Hs implique H2. Dans le cas gaussien, si Cov(£;,€;) = 
076i, alors les e; sont indépendants. L'hypothèse Hs s'écrit €1,--- ,€, sont i.i.d. 
et de loi W(0, 0°). 

L'hypothèse gaussienne va nous permettre de calculer la vraisemblance et les es- 
timateurs du maximum de vraisemblance (EMV). Cette hypothèse va nous per- 
mettre également de calculer des régions de confiance et de proposer des tests. 
C’est l’objectif de ce chapitre. 


5.1 Estimateurs du maximum de vraisemblance 
Calculons la vraisemblance de l'échantillon. La vraisemblance est la densité de 


l'échantillon vue comme fonction des paramètres. Grâce à l’indépendance des er- 
reurs, les observations sont indépendantes et la vraisemblance s’écrit : 


1 n/2 1 n p à 
L(Y, B, o° = JI ft) (yi) = - (z) PTS, (yi D Bizi) 
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Nous avons donc 


2 10 1 2 
YB) (es) e -zly xs] 


Il est souvent plus simple de considérer la log-vraisemblance 


1 
L(Y, B, 0”) = log L(Y, 8,0?) = -2 logo? — log 2r -5Y — XAll?. 
2 2 20? 
Dérivons £ par rapport aux paramètres 


OL(Y,B,0°) _ 1 à 


OL(Y, B, o? 1 
am sea + ol - xg. (5.2) 


Annulons ces dérivées. A partir de (5.1), nous avons évidemment Byy = B et à 
partir de (5.2) nous avons 


„2 _ IY- XĝÊmvl|? 
PE ae 


donc 67, = (n—p)é?/n. L’estimateur du MV de o? est donc biaisé par opposition 
à l’estimateur 6? obtenu par les MC. Afin de vérifier que nous avons bien un 
maximum, il faut étudier les dérivées secondes (à faire en exercice). 

Sous l'hypothèse supplémentaire H3, les propriétés établies au chapitre 2 sont 
toujours valides (sans biais, variance minimale). Nous pouvons toutefois établir de 
nouvelles propriétés. 


5.2 Nouvelles propriétés statistiques 


Grâce à l’hypothèse gaussienne, nous pouvons « améliorer » le théorème de Gauss- 
Markov. L’optimalité des estimateurs est élargie et nous ne considérons plus seule- 
ment les estimateurs linéaires sans biais, mais la classe plus grande des estimateurs 
sans biais. De plus, le théorème intègre désormais l’estimateur de o?. La preuve 
de ce théorème est donnée parmi les corrections des exercices de ce chapitre. 


Proposition 5.1 
(6,67) est une statistique complète et (8,67) est de variance minimum dans la 
classe des estimateurs sans biais. 


Nous pouvons ensuite établir une proposition importante pour la construction des 
tests et régions de confiance. 


Proposition 5.2 (Lois des estimateurs : variance connue) 
Sous les hypothèses Hı et H3, nous avons 
1 


$ 


i) B est un vecteur gaussien de moyenne B et de variance o2(X'X)~ 
ii) (n — p)ô? /o?° suit un x? à n -— p ddl Xp); 
iii) Ê et 6? sont indépendants. 
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Preuve 
i) B est fonction linéaire de variables gaussiennes et suit donc une loi normale 
entièrement caractérisée par son espérance et sa variance calculées au chapitre 
précédent. 
ii) 

p_iv- x0 1 


n—p n — 


R 1 
lê? = —IPx+elļ? = 
Pp n— p n— p 


e' Pye. 


Or e ~ N(0,071) et Py est la matrice de projection orthogonale sur S(X)+, 
espace de dimension n — p. Nous obtenons le résultat par le théorème de Cochran 
(théorème A.1 p. 418). 

iii) Remarquons que 6 est fonction de PxY (5 = (X'X)71X’PxY) et 6? est 
fonction de (I — Px)Y. Les vecteurs gaussiens Ÿ et ê sont de covariance nulle 
et sont donc indépendants. Toute fonction fixe de Y reste indépendante de toute 


fonction fixe de ê, d’où le résultat. 


Il en découle une proposition plus générale pour bâtir les régions de confiance. 


Proposition 5.3 (Lois des estimateurs : variance estimée) 
Sous les hypothèses Hı et H3, nous avons 


i) pour j = 1,- ,p, Tj = - ao ~T(n—p), 
jj 


ii) soit R une matrice de taille q x p de rang q (q < p) alors 


1 2 = -1 yA 
a RÔ — 8) [RX XR] RÊ - 8) ~ Fan- 
Preuve | 
i) la variance de l’estimateur 3; vaut o?[X'X lee nous avons alors 
eat ae = N(0,1). 
ay (XX) =]; 


o? est inconnue et estimée par ĉ?. La suite découle de l’utilisation des points (ii) 
et (iii) de la proposition précédente. 

ii) Le rang de R vaut par hypothèse q < p, donc le rang de R(X'X) 1R! vaut q. 
RÊ est un vecteur gaussien de moyenne Rf et de variance o? R(X'X)-'1R'. Nous 
avons donc 


(RÊ — RBY [R(X'X) 1R] (RB — RB) ~ xd, (5.3) 


Or o? est inconnue. Afin de faire disparaître o? de l'équation (5.3), nous divisons 
le membre de gauche par 6?/a?. Rappelons que par (ii) nous savons que 6?/a? 
suit un y? divisé par son degré de liberté et que par (iii) 6?/o? est indépendant 
du membre de gauche de l’équation (5.3). La suite découle donc de la définition 
d’une loi de Fisher (rapport de deux x? indépendants divisés par leurs degrés de 
liberté respectifs). 
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5.3 Intervalles et régions de confiance 


Les logiciels et certains ouvrages donnent des IC pour les paramètres pris séparé- 
ment. Cependant ces IC ne tiennent pas compte de la dépendance des estimations. 
Il est possible d’obtenir des IC simultanés pour plusieurs paramètres. Le théorème 
ci-dessous détaille toutes les formes de RC : simple ou simultané. C’est le théo- 
rème central de l’estimation par intervalle dont la démonstration est à faire à titre 
d’exercice (voir exercice 5.2). 


Théorème 5.1 (IC et RC des paramètres) 
i) Un IC bilatéral de niveau 1 — a, pour un B; pour j =1,--- ,p est donné par 


|B; - t0 — 0/298 KX], By + taa — 0/8 EX] 


ii) Un IC bilatéral de niveau 1 — a, pour o? est donné par 


A2 A2 
E p)6 (n — p)ô | ai Paz A <c&)=1—a. 
C2 C1 


iii) Une RC pour q (q < p) paramètres Bj notés (B;,,---,/8,,) de niveau 1 — à est 
donnée, 


— lorsque o est connue, par 
1 à À 
RCa(RB)={ RB € RY, LIRE — AY IR(X'X) RI IRG - 6) < x20 — a)} 
— lorsque o est inconnue, par 


RCA(RB) = {R € R9, 
[RÊ - 8) [RX’X) RG — 8] < fan-pll-a)}, (5.4) 


qô? 


où R est la matrice de taille q x p dont tous les éléments sont nuls sauf les [R]ij; 
qui valent 1. 


Les valeurs cı et co sont les fractiles d’un x? et fan-p(1 — à) est le fractile de 
niveau (1 — a) d’une loi de Fisher admettant (q,n — p) ddl. 


Exemple : différence entre intervalles et régions de confiance 
Nous souhaitons donner une RC pour Bi et (2, la matrice R est donnée par 


“Ft Do Ce i. Fae 
Rel G i 0) na—p)=| 57 | 


Nous avons alors pour (61, G2) la RC suivante lorsque a? est inconnu : 


RCa(B1, 62) = fl-AB [R(X'X) RT | A 7 . | < fon—p(l — a)} l 
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Notons c;; le terme général de (X’X)~', nous obtenons en développant 


RC (Bi Be) = TIA R?, : x 


262(c11C22 = ĉio) 


(c22(8 — By)? — 2c12(ĝ1 — B1)(B2 — Ba) + c11 (Bo — 62)*) < f2n-p(1 — a)} 


Cette région de confiance est une ellipse qui tient compte de la corrélation entre Êi 
et B;, contrairement a la juxtaposition de deux intervalles de confiance qui forme 
un rectangle (voir fig. 5.1). 


4 A + 
J (Br Êz} 


Fig. 5.1 — Comparaison entre ellipse et rectangle de confiance. 


Si les composantes sont très peu corrélées alors les régions parallélépipédiques 
définies par les IC sont une bonne approximation de l’ellipsoïde. 

Nous traitons les 50 données journalières concernant la concentration en ozone. 
La variable à expliquer est la concentration en ozone notée 03 et les variables 
explicatives sont la température T12, le vent Vx et la nébulosité Ne12. 

Après avoir estimer le modèle, et afin de calculer les intervalles de confiance à 95 % 
pour les paramètres, il suffit d’utiliser les ordres suivants : 


> modele3 <- 1m(03 ~ T12 + Vx + Ne12, data = ozone) 
> resume3 <- summary (modele3) 
> coef3 <- coef (resume3) 
> IC3 <- t(confint(modele3, level = 0.95)) 
> IC3 

(Intercept) T12 Vx Ne12 
PD) if 57.15842 0.3138112 0.1491857 -6.960609 
97.5 % 111.93625 2.3162807 0.8237055 -2.826137 


où la fonction confint calcule directement la valeur des bornes de l’intervalle grâce 
au théorème 5.1. Pour vérifier numériquement le théorème, la valeur numérique du 
quantile t,_»)(1—a/2) est obtenue grâce à qt (0.975 ,modele3$df.res) tandis que 
les valeurs des estimations des variances sont dans resume3$coefficients[,2]. 

Afin de dessiner les ellipses de confiance, nous utilisons le package ellipse : Nous 
allons dessiner les régions de confiance de tous les couples de paramètres et les com- 
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parer graphiquement aux intervalles de confiance pour chaque paramètre pris indé- 
pendamment (ellipse versus rectangle). Nous choisissons un intervalle de confiance 
à 95 % pour chaque paramètre et une région de confiance à 95 %. Nous obtenons 
le dessin des ellipses de confiance pour tous les couples de paramètres grâce aux 
commandes suivantes : 


> library(ellipse) 
> par(mfrow=c(3,2)) 
> for(i in 1:3){ 
+ for(j in (i+1):4){ 
plot (ellipse (modele3,c(i,j),level=0.95) ,type="1", 
xlab=paste("beta",i,sep="") ,ylab=paste("beta",j,sep="")) 
points (coef (modele3) [i], coef (modele3) [j] , pch=3) 
lines (e(Te MFF TC Ie 1¢3 12,1], 1C3 12,3] 1C3 1 MD 
eqics i, ji, IC3[2, j], IC3[2, j], IC3[1, j], IC3[1,j]),1ty=2) 


}} 


Ba 
0.4 0.6 0.8 


0.2 


50 60 70 80 90 100 1 10 120 


Ba 
0.2 04 06 08 


50 60 70 80 90 100 110 120 00 05 1.0 15 2.0 2.5 


2 B3 
Fig. 5.2 — Régions de confiance et rectangle des couples de paramètres. 


Afin d’observer la corrélation entre les paramètres, nous pouvons regarder l’orien- 
tation du grand axe de l’ellipse. Si cet axe n’est pas parallèle aux axes du repère, 
il y a corrélation. Ainsi nous observons que Êi et Bo sont fortement corrélés. Il en 
va de même avec (Ba, B3) et (Ba, Ba). Enfin rappelons que nous pouvons calculer 
un IC à 95 % pour 6? avec les commandes suivantes : 
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> c(resume3$sigma” 2*modele3$df .res/qchisq(0.975 ,modele3$df.res), 
+ resume3$sigma” 2*modele3$df.res/qchisq(0.025 ,modele3$df.res) ) 
[1] 133.6699 305.3706 


5.4 Prévision 


Soit 2h41 = (@n+41,1,°°* , Tn+1,p) une nouvelle valeur et nous voulons prédire yn+1. 
Le modèle indique que 


Yn+1 = Trial + En+1, 
avec les g; i.i.d. et qui suivent une (0,07). A partir des n observations, nous 
avons estimé 3 et nous prévoyons Yn+1 par 
hta = Lnb - 
L’espérance et la variance de l’erreur de prévision ef .) = Yn+1 — 941 valent : 


E(yn41 — ha) =0 
V(Gra1 — Yny) = V(r (ô — P) — En+1) 
= 2h41 V(Ê — Beng + 0° 


= 0° |e (XX) ul), 


Nous obtenons la proposition suivante. 


Proposition 5.4 (IC de prévision) 
Un IC de niveau (1 — a) pour yn+41 est donné par 


[aat Etna- a/o aX at 1]. 


Preuve 

3 suit une loi l fixe donc ÿ? it une loi le. La valeur 
B suit une loi normale et £n4+1 est fixe donc Yn+41 Suit une loi normale. La valeur 
aléatoire yn+1 à prévoir suit une loi normale W(x/,,,8,0°) et est indépendante 
des y1,--- , Yn par l'hypothèse H3. 

Nous avons donc que yn+1 est indépendant de g? 41 = 4,8 car p est une fonction 
linéaire des y1,-++ , Yn. L’erreur de prévision yn41—§? ,, suit donc une loi normale 
dont les moyenne et variance ont été calculées. Nous avons ainsi 


Of Ei (XX) anys +1 | 


Or o est inconnue et estimée par 6. Nous utilisons la définition d’un Student : si 
N suit une loi normale centrée réduite, si D suit un x? à d ddl et si N et D sont 
indépendants, alors le rapport N/y D/d suit un Student à d ddl. 
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La proposition 5.3 p. 93 indique que D = 6?(n — p)/o? suit un y? à (n — p) degrés 
de liberté et que D est indépendant de B . Or 6? dépend uniquement des 71,:°: , Yn 
et est donc indépendant de y,+1. Il en va de même pour D. Le caractère aléatoire 
de N provient de Ê et de Yn+1, nous en déduisons que N et D sont indépendants 
d’où 
N E Brun — Yn+1 a 
V2 ô / th (X' X) yg +1 


T(n—p), (5.5) 


Vintervalle de confiance découle de ce résultat. 


5.5 Les tests d’hypothèses 


5.5.1 Introduction 


Reprenons l’exemple de la prévision des pics d’ozone. Nous avons modélisé les pics 
d'ozone par T12, Vx et Ne12. Il paraît raisonnable de se poser les questions sui- 
vantes : 

(a) est-ce que la valeur de 03 est influencée par Vx ? 

(b) y a-t-il un effet nébulosité ? 

(c) est-ce que la valeur de 03 est influencée par Vx ou T12? 


Rappelons que le modèle utilisé est le suivant : 
03 — By + B2T12 + B3Vx + BaNe12 HE: 


Nous pouvons écrire les trois questions précédentes en termes de test d’hypothèse : 
(a) correspond à Ho : 63 = 0, contre Hı : 83 40; 

(b) correspond à Ho : 84 = 0, contre Hı : 64 40; 

(c) correspond à Ho : 82 = 63 = 0, contre Hı : 62 Æ 0 ou b3 £0. 


Remarquons que tous ces cas reviennent à tester la nullité d’un ou plusieurs pa- 
ramètres en même temps. Dans le cas c) on parle de nullité simultanée des coeffi- 
cients. Cela veut dire que sous l'hypothèse Hg certains coefficients sont nuls, donc 
les variables correspondant à ces coefficients ne sont pas utiles. Ce cas de figure 
correspond par définition à comparer deux modèles emboîtés l’un dans l’autre (l’un 
est un cas particulier de l’autre). 
Le plan d’expérience privé de ces variables sera noté Xo et les colonnes de Xo en- 
gendreront un sous-espace noté S(Xo). Afin d’alléger les notations, nous noterons 
S(Xo) = Vo et S(X) = Sx. Le niveau des tests sera fixé de façon classique à a. 


5.5.2 Test entre modèles emboîtés 


Rappelons tout d’abord le modèle et les hypothèses utilisées : 


Y=XB+e où exnN(0,07), 
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cela veut dire que E(Y) € Sx espace engendré par les colonnes de X. 

Pour faciliter les notations, supposons que nous souhaitons tester la nullité simul- 
tanée des q derniers coefficients du modèle avec q < p. Le problème s’écrit alors 
de la façon suivante : 


Ho: Bp-q+1 =" = bp =0 contre Hı: Jj €{p—q+l,---,p}: 6; #0. 


Que signifie Ho : 6,941 = + = p = 0 en termes de modèle? Si les q derniers 
coefficients sont nuls, le modèle devient 


Y = XoBo+e où e~ N(0,0°1), 


où la matrice Xo est composée des p — q premières colonnes de X. Les colonnes 
de Xo engendrent un espace noté So de dimension po = p — q. Ce sous-espace 
est bien évidemment inclus dans Sy. Sous l’hypothèse nulle Ho, l’espérance de Y 
appartiendra à ce sous-espace. 

Une fois que les hypothèses du test sont fixées, il faut proposer une statistique 
de test. Nous allons voir une approche géométrique assez intuitive. Une approche 
plus analytique basée sur les tests de rapport de vraisemblance maximum est à 
faire en exercice (voir exercice 5.7). 


Approche géométrique 


Considérons le sous-espace noté So. Nous avons écrit que sous Ho : E(Y) € So. 
Dans ce cas, la méthode des moindres carrés consiste à projeter Y non plus sur Sx 
(et obtenir Ÿ) mais sur So et obtenir Yo. Visualisons ces différentes projections 
sur le graphique suivant : 


Fig. 5.3 — Représentation des projections. 


L'idée intuitive du test, et donc du choix de conserver ou de rejeter Ho, est la 
suivante : si la projection de Y dans So, notée Yo, est « proche » de la projection 
de Y dans Sx, notée Y, alors il semble logique de conserver l'hypothèse nulle. 
En effet, si information apportée par les deux modèles est la « même », il vaut 
mieux conserver le modèle le plus petit (principe de parcimonie). Il faut évidem- 
ment quantifier le terme « proche ». De maniére naturelle, nous pouvons utiliser 
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la distance euclidienne entre Yo et Y, ou son carré, ||Yo — Y||?. Cependant, cette 
distance sera variable selon les données et selon les unités de mesures utilisées. 
Pour s’affranchir de ce problème d’échelle nous allons « standardiser » cette dis- 
tance en la divisant par la norme au carré de l'erreur ê. Les quantités ê et A ay 
n’appartiennent pas à des espaces de même dimension, nous divisons donc chaque 
terme par son degré de liberté respectif. Nous avons donc la statistique de test 
suivante : 


__ Wo-VIP/a_ _ IP- PI? - po) 
IY -P/a -p IY -YIP/m =p) 


Pour utiliser cette statistique de test, il faut connaître sa loi au moins sous Hop. 
Remarquons que cette statistique est le rapport de deux normes au carré. Nous 
allons donc déterminer la loi du numérateur, du dénominateur et constater leur 
indépendance. Nous savons que 


Yo —Y = Ps, Y — Ps, Y, 
or So C Sx donc 
Yo — Ý = Ps, PoxY — Pa, Y = (Pay — In)Pox¥ = -Pog Pox. 


Nous en déduisons que (Yo — Y) € St N Sx et donc que (Ñ — Y) L (Y — Ê). La 
figure (5.3) permet de visualiser ces notions d’orthogonalité. Les vecteurs aléatoires 
Yo —Y et Y — Ÿ sont éléments d’espaces orthogonaux, ils ont donc une covariance 
nulle. Ces deux vecteurs sont des vecteurs gaussiens, ils sont donc indépendants 
et toute fonction fixe de ceux-ci reste indépendante, en particulier les normes du 
numérateur et du dénominateur sont indépendantes. 

En utilisant ’hypothése H3 de normalité et en appliquant le théorème de Cochran 
géométrique (théorème A.1 p. 418), nous en déduisons que ces deux normes suivent 
des lois du x? 


1 

allPoz Yl? és Kap 
1 2 2 1 2 
gillPatnax VII" ~ Xp—po | za Pstnsx XA J, 


où le paramètre de décentrage || P3149, X5||?/o7 est nul sous Ho puisque dans ce 
cas XB € So. Nous pouvons conclure avec le théorème suivant. 


Théorème 5.2 (Test entre modèles emboîtés) 

Soit un modèle de régression à p variables Y = XB + e€ satisfaisant Hı et H3. 
Nous souhaitons tester la validité d’un sous-modèle (ou modèle embotté) où un ou 
plusieurs coefficients sont nuls. Le plan d'expérience privé de ces variables sera noté 
Xo, les po colonnes de Xo engendreront un sous-espace noté So et le sous-modèle 
sera Y = Xoßo +£. Notons hypothèse nulle (modèle restreint) Ho : E(Y) € So et 
l'hypothèse alternative (modèle complet) Hı : E(Y) € S(X). 
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Pour tester ces deux hypothèses, nous utilisons la statistique de test F ci-dessous 
qui possède comme loi sous Ho : 


p- = PP/Mp— po) | 
Iv =P= p) 


P—Ppo,n—p? 


et sous H; la loi reste une loi de Fisher mais décentrée de IlPs2n95X Bl|?/0?. 
Notons aussi une écriture équivalente souvent utilisée et donc importante 


n — p SCRo — SCR 


F= 
P— Po SCR 


~ Fp—po,n—p- 


L'hypothèse Ho sera repoussée en faveur de Hy si V’observation de la statistique F 
est supérieure à fp-pon-p(1 — a), la valeur a est le niveau du test. 


Preuve 

La démonstration de la statistique de test F découle de la construction qui précède 
le théorème. En se rappelant que si N ~ x? à n ddl et D ~ y? à p ddl et si N et 
D sont indépendants alors 


N d 
Dn ~re 


L’écriture avec les SCR s’obtient en notant que 
IX — Pol? = |I¥ — Pax¥ + Pax ¥ — PaoY |? 

= ||Pat¥ + (In — Pao) Pox Y |? 

= ||Pst¥ |)? + ||Posġnsx YI? 

= |Y -Y|P + IÊ - ĉl’. 
Cette approche géométrique semble déconnectée des tests statistiques classiques 
mais il wen est rien. Nous pouvons montrer (voir exercice 5.7) que le test F est 
tout simplement le test de rapport de vraisemblance maximale. 
Test de Student de signification d’un coefficient pj 


Nous voulons tester Ho : 8; = 0 contre Hı : 8; Æ 0 (test bilatéral de significativité 
de B;). Selon le théorème 5.2, la statistique de test est 


_ If -Al 


62 


F 


Nous rejetons Ho si l’observation de la statistique F, notée F(w), est telle que 
F(w) > Tinapi = a). 


La statistique de test est un Fisher à 1 et (n — p) ddl. 
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Ce test est équivalent (voir exercice 5.6) au test de « Student » à (n — p) ddl qui 
permet de tester Ho : 6; = 0 contre Hi : 6; #0 (test bilatéral de significativité de 
B;) avec la statistique de test 


A 


Bj 


T=- 
TB 


qui suit sous Ho une loi de Student à (n — p) ddl. Nous rejetons Ho si l’observation 
de la statistique T, notée T(w), est telle que 


IT(w)| > tn-(1 -= a/2). 


C’est sous cette forme que ce test figure dans les logiciels de régression linéaire. 


Test de Fisher global 


Si des connaissances a priori du phénomène étudié assurent l’existence d’un terme 
constant dans la régression, alors pour tester l’influence des régresseurs non cons- 
tants sur la réponse, nous testerons l’appartenance de E(Y) = u à la diagonale 
So(X) = A de R”. Nous testerons ainsi la validité globale du modèle, c’est-à-dire 
que tous les coefficients sont supposés nuls, excepté la constante. Ce test est appelé 
test de Fisher global. Dans ce cas, Yy = Y1 et nous avons la statistique de test 
suivante : 

|PsxY =F. ¥Pe—1) _ ||PosxY - Y1|?/(@- 1) 


IY — Ps,Y|?/(m—p) [Y-Ps,Y|?/(n-p) 


cs Een 


Si nous écrivons la statistique de test en utilisant le R?, nous obtenons le rapport 


O R? n-p 
~ 1=R?p-1` 


Ce test est appelé par certains logiciels de statistique le test du R? . La valeur de 
ce test est présenté par défaut dans le logiciel R sous le terme de F-statistics. 
Il faut faire attention à l'interprétation de ce test lorsque la constante n’est pas 
dans le modèle, voir exercice 5.4. 


5.6 Applications 


La concentration en ozone 


Nous reprenons les données de l’ozone traitées précédemment dans ce chapitre et 
obtenons avec les commandes suivantes : 


l> modele3 <- 1m(03 ~ T12 + Vx + Ne12, data = ozone) 
> resume3 <- summary (modele3) 
| > resume3 


Inférence dans le modèle gaussien 103 


le tableau de résultats suivant : 


| call: 
| Im(formula = 03 ~ T12 + Vx + Ne12, data = ozone) 


Residuals: 
Min 1Q Median 3Q Max 
-29.046 -8.482 0.786 fo (022397292 


| Coefficients: 
Estimate Std. Error t value Pr(>|tl) 
(Intercept) 84.5473 13.6067 6.214 1.38e-07 **x 


f T12 1.3150 0.4974 2.644 0.01117 * 

y Vx 0.4864 0.1675 2.903 0.00565 ** 

| Ne12 -4 . 8934 1.0270 -4.765 1.93e-05 *** 

a 

| Signif. codes: 0 ’***? 0.001 ’**? 0.01 7x? 0.05 >.>? 0.1 ? ? 1 


Residual standard error: 13.91 on 46 degrees of freedom 
Multiple R-Squared: 0.6819, Adjusted R-squared: 0.6611 
| F-statistic: 32.87 on 3 and 46 DF, p-value: 1.663e-11 


La dernière ligne de la sortie du logiciel donne la statistique de test global, tous 
les coefficients sont nuls sauf la constante. Nous avons n = 50 observations, nous 
avons estimé 4 paramétres et donc le ddl du Fisher est bien (3, 46). Nous refusons 
Ho (tous les coefficients sauf la constante sont nuls) : au moins un des coefficients 
associé a T12, Vx, Ne12 est non nul. 


Le tableau Coefficients nous donne à la ligne j le test de la nullité d’un para- 
mètre Ho : 6; = 0. Nous constatons qu’au seuil de 5 % tous les coefficients sont 
significativement différents de 0. La derniére colonne donne une version graphique 
du test : *** signifie que le test rejette Ho pour des erreurs de première espèce 
supérieures ou égales à 0.001, ** signifie que le test rejette Ho pour des erreurs de 
première espèce supérieures ou égales à 0.01, * signifie que le test rejette Ho pour 
des erreurs de première espèce supérieures ou égales à 0.05, . signifie que le test 
rejette Ho pour des erreurs de première espèce supérieures ou égales à 0.1. 


Tous les coefficients sont significativement non nuls et il ne semble donc pas utile 
de supprimer une variable explicative. Reprenons le modèle du chapitre précédent 


> modele2 <- 1m(03 ~ T12 + Vx, data = ozone) 


et comparons, à l’aide d’un test F, ces deux modèles emboités 
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> anova(modele2, modele3) 
Model 1: 03 ~ T12 + Vx 
Model 2: 03 ~ T12 + Vx + Nei2 


Res.Df RSS Df Sum of Sq F Pr (>F) 
1 47 13299.4 
2 46 8904.6 1 4394.8 22.703 1.927e-05 *** 
Signif. codes: 0 xxx? 0.001 >x? 0.01 ?*’? 0.05 >. 0.1? ? 1 


Nous retrouvons que le test F entre ces deux modèles est équivalent au test T 
de nullité du coefficient de la variable Ne12 dans le modèle modele3 (les deux 
probabilités critiques valent 1.93 1075). 

En conclusion, il semble que les 3 variables T12, Vx et Ne12 soient explicatives de 
l’ozone. 


La hauteur des eucalyptus 


Le but de cet exemple est de prévoir la hauteur (ht) par la circonférence (circ). 
Lors des deux chapitres précédents nous avons introduit deux modèles de prévision, 
le modèle de régression simple 


ht = pı + Bcirc+e 
et le modèle de régression multiple 
ht = bı + Bocirc+ 63Vcirc+e. 


Si l’on souhaite choisir le meilleur des deux modèles emboités, nous pouvons 
conduire un test F. Rappelons les commandes pour construire les deux modèles. 


> regsimple <- lm(ht ~ circ, data = eucalypt) 
> regM <- Im(ht ~ circ + I(sqrt(circ)), data = eucalypt) 


Le test F est obtenu simplement comme suit. 


> anova(regsimple, regM) 
Analysis of Variance Table 


Model 1: ht ~ circ 
Model 2: ht ~ circ + I(sqrt(circ)) 
Res.Df RSS Df Sum of Sq F Pr (>F) 
1 1427 2052.08 
2 1426 1840.66 1 211.43 163.80 < 2.2e-16 *** 


Signif. codes: 0 ?*##? 0.001 xx? 0.01 ?*’? 0.05 >.: 0.1%? 1 
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Nous pouvons voir que l’observation de la statistique de test vaut 163.80, ce qui 
est supérieur au quantile 95 % d’une loi de Fisher à (1, 1426) degré de liberté qui 
vaut 3.85 (obtenu avec qf (0.95,1,regM$df.res)). 

Nous repoussons Hp au profit de Hı : le modèle de prévision adapté semble le 
modèle de régression multiple, malgré ses problèmes de prévision pour les hautes 
valeurs de circonférence. Rappelons que l’on peut retrouver le résultat de ce test 
avec le test T de nullité d’un coefficient : 


> summary (regM) 


Call: 
lm(formula = ht ~ circ + I(sqrt(circ)), data = eucalypt) 


Residuals: 
Min 1Q Median 3Q Max 
-4.18811 -0.68811 0.04272 0.79272 3.74814 


Coefficients: 

Estimate Std. Error t value Pr(>|t|l) 
(Intercept) -24.35200 2.61444 -9.314 <2e-16 **x 
circ -0.48295 0.05793 -8.336  <2e-16 *** 
I(sqrt(circ)) 9.98689 0.78033 12.798  <2e-16 *** 


| Signif. codes: O ?***’ 0.001 ’**? 0.01 ?*? 0.05 ?.? 0.1? ? 1 


| Residual standard error: 1.136 on 1426 degrees of freedom 

Multiple R-Squared: 0.7922, Adjusted R-squared: 0.7919 
| F-statistic: 2718 on 2 and 1426 DF, p-value: < 2.2e-16 
En effet, nous obtenons que l’observation de cette statistique vaut ici 12.798. Cette 
observation au carré est exactement égale à l’observation de la statistique de test F 
(en effet 12.798? ~ 163.80). Par ailleurs les probabilités critiques sont bien égales. 
Notons que, dans ce résumé, le test de Fisher global repousse bien sûr l’hypothèse 
de nullité des coefficients des variables circ et Vcirc. L’observation de la statis- 
tique de test vaut ici 2718 alors que le quantile 4 95 % d’une loi de Fisher a (2, 1426) 
vaut 3.00. Cette réponse semblait évidente puisque repousser ici Ho revient à dire 
qu’une des 2 variables au moins est explicative de la hauteur. Il est intéressant 
de noter que la variable circ intervient de manière négative (la hauteur décroît 
avec la circonférence) mais cela est compensé par la valeur positive de la variable 
Vcirc. 
Nous pouvons aussi donner les intervalles de confiance pour le modèle et pour les 
prévisions. Pour cela, nous donnons une grille de valeurs de circonférences réparties 
entre le minimum (26 cm) et le maximum (77 cm), nous calculons la racine carrée 
de chaque élément de la grille et nous plaçons le tout dans un data-frame avec les 
mêmes noms que les variables du modèle. 
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> grille <- data.frame(circ = seq(min(eucalypt[,"circ"]), 
+ max(eucalypt[,"circ"]), len = 100)) 


Ensuite nous utilisons la fonction predict () qui permet de donner les prévisions 
mais aussi les IC, tant pour le modèle que pour les prévisions. Enfin nous repré- 
sentons les données et les IC à 95 %. 


> ICdte <- predict (regM,new=grille, interval="conf",level=0.95) 

> ICpre <- predict (regM,new=grille, interval="pred", level=0.95) 

> plot(ht ~ circ, data = eucalypt, pch="+", col="grey60") 

> matlines(grille,cbind(ICdte, ICpre[,-1]) ,lty=c(1,2,2,3,3),col=1) 
> legend("topleft", lty=2:3, c("E(Y)","Y")) 


Cette figure permet d’apprécier la mauvaise précision du modèle pour les fortes 
valeurs de circonférence. 


30 40 50. 60 70 
circ 
Fig. 5.4 — Modèle de régression multiple ht = 6, + Ggcirc + B3Vcirc+e et 
intervalles de confiance 4 95 % pour ht et pour E(ht). 


Nous aurions pu construire un modèle de prévision de la hauteur avec la racine 
carrée de la circonférence uniquement. Cependant, le test de ce modéle (ht = 
Bı + B2v circ) contre celui incorporant circ et circ, (ht = bı + Ggcire + 
Bav circ + £), conduit à garder ce dernier. 


5.7 Exercices 


Exercice 5.1 (Questions de cours) 
1) Nous pouvons justifier les MC quand € ~ W(0, o°?1) via l'application du maximum de 
vraisemblance : 
A. oui, 
B. non, 
C. aucun rapport entre les deux méthodes. 
2) Les estimateurs B des MC et 8 du maximum de vraisemblance sont-ils différents ? 
A. oui, 
B. non, 
C. pas toujours, cela dépend de la loi des erreurs. 
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3) Les estimateurs G? des MC et a? du maximum de vraisemblance sont-ils différents ? 
A. oui, 
B. non, 
C. pas toujours, cela dépend de la loi des erreurs. 
4) Le rectangle formé par les intervalles de confiance de niveau a individuels de 6; et B2 
correspond à la région de confiance simultanée de niveau a de la paire (81, 82) : 
A. oui, 
B. non, 
C. cela dépend des données. 
5) Nous avons n observations et p variables explicatives, nous supposons que € suit une loi 
normale, nous voulons tester Ho : G2 = 03 = b4 = 0. La loi de la statistique de test est 
A. Fp-—3,n—p: 
B. F3n—p 
C. une autre loi. 


Exercice 5.2 (Théoréme 5.1) 
Démontrer le théoréme 5.1 p. 94. 


Exercice 5.3 (Test et R?) 
Démontrer que la statistique du test Fisher F peut s'écrire sous la forme 


R?-Rin-p 
1—R? p- po’ 


F= 


où R? (RS) correspond au R? du modèle complet (du modèle sous Ho). 


Exercice 5.4 (Test et R? et constante dans le modèle) 
A FAIRE 


Exercice 5.5 (Ozone) 
Nous voulons expliquer la concentration de l'ozone sur Rennes en fonction des variables T9, 
T12, Ne9, Ne12 et Vx. Les sorties données par R sont : 


Coefficients : 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 62 10 1 0 
T9 -4 2 -5 0 
T12 5 0.75 3 0 
Ne9 -1.5 1 4 0.08 
Ne12 -0.5 0.5 5 0.53 
Vx 0.8 0.15 5.5 0 


Multiple R-Squared: 0.6666, Adjusted R-squared: 0.6081 
Residual standard error: 16 on 124 degrees of freedom 
F-statistic: |6| on |7| and |8| DF, p-value: 0 
1) Compléter approximativement la sortie ci-dessus. 
2) Rappeler la statistique de test et tester la nullité des paramètres séparément au seuil de 


5%. 


108 Régression avec R 


3) Rappeler la statistique de test et tester la nullité simultanée des paramétres autres que 
la constante au seuil de 5 %. 

4) Voici une nouvelle valeur, peut-on effectuer la prévision et donner un intervalle de 
confiance à 95 % (T9=10, T12=20, Ne9=0, Ne12=0, Vx=1) ? 

5) Les variables Ne9 et Ne12 ne semblent pas influentes et nous souhaitons tester la nullité 
simultanée de yes et Bye12. Proposer un test permettant de tester la nullité simultanée de 
Bueg et Bnei2 et l’effectuer à partir des résultats numériques suivants : 


Coefficients : 

Estimate Std. Error t value Pr(>|t|l) 
(Intercept) 66 11 6 0 
T9 -5 1 -5 0 
T12 6 0.75 8 0 
Vx 1 0.2 5 0 


Multiple R-Squared: 0.5, Adjusted R-squared: 0.52 
Residual standard error: 16.5 on 126 degrees of freedom 


Exercice 5.6 (Equivalence du test T et du test F) 
Nous souhaitons tester la nullité d'un paramètre. Démontrer l'équivalence entre le test de 
Student et le test de Fisher. 


Exercice 5.7 ({tEquivalence du test F et du test de VM) 
Nous souhaitons tester la nullité simultanée de q paramètres. Ecrire le test de rapport de 
vraisemblance maximale. Montrer que ce test est équivalent au test F. 


Exercice 5.8 (ff Test de Fisher pour une hypothèse linéaire quelconque) 

Une hypothèse linéaire quelconque Ho est de la forme R8 — r = 0, où R est une matrice de 
taille q x p de rang q et r un vecteur de taille q. 

Considérons un modèle de régression à p variables Y = X 8 + e€ satisfaisant Hı et H3. Nous 
souhaitons tester dans le cadre de ce modèle la validité d'une hypothèse linéaire quelconque 
Ho RG = r, avec le rang de R égal à q, contre Hı R8 Æ r. Soit So le sous-espace de 
Sx de dimension (p — q) engendré par la contrainte R8 = r (ou Ho) et Sx le sous-espace 
de dimension p associé a Hı. 

Démontrer que pour tester ces deux hypothèses nous utilisons la statistique de test F ci- 
dessous qui possède comme loi sous Ho : 


IÊ - Yoll2/dim(St N Sx) 
[Y —ŸIP/dim(S x) 
_ n—pll¥ - Yall? - IY -° 


q IY - YIP 
_n-pSCRo-SCR + 
q SCR LE 


: : : wo dé 4 2, 2 
et sous H; la loi reste une loi de Fisher mais décentrée de Pains x X BI /0*. 
Exercice 5.9 (Généralisation de la régression ridge) 

Soit le problème de minimisation suivant (ridge généralisé) : 


Pp 
Bre(n,. +47) = argmin |Y — Xl? — SG): 
ERP 


j=l 
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Montrez qu'à l’optimum, ra = (X’X — A)~LX’Y, où A = diag(...,6,,...). En déduire 
que le nombre effectif de paramètres est tr(X(X’X — A)“ X’). 


Exercice 5.10 ({tIC pour la régression ridge) 
Soit un modèle de régression Y = X8 + pour lequel nous nous intéressons à la régression 
ridge. Les variables sont supposées déjà centrées-réduites. Nous allons considérer que & est 
un coefficient fixé. Nous supposerons vérifiée l'hypothèse H3 de normalité des résidus. Nous 
nous plaçons dans le cas où la régression ridge est utile, c'est-à-dire X Briage(®) Æ PxY. 
1) Dans le cadre de la régression des MC pour Y = XB+E, rappeler la loi de B. 
2) Rappeler la définition de l'estimateur Bridge(À). 
3) Trouver la loi de Briage(®). 
4) Soit l'estimateur de a? issu de la régression ridge : Griage = ||Y — Page (Ge — 
tr(H*(&)), où tr(H*(&)) est le nombre effectif de paramètres de la régression ridge. Montrer 
que le vecteur aléatoire Y — Fe n'est pas orthogonal à Yuc. 
5) Trouver le point de la démonstration du théorème 5.3 qui n'est pas assuré avec l'es- 
timateur Briage et l'estimateur Gage: Nous en déduisons alors qu'il n'est plus assuré que 
l'intervalle de confiance de 5 en régression ridge soit de la forme énoncée par le théorème 
5.1 (en remplaçant Ê par Briage et 6? par rage À 
6) Concevoir un algorithme calculant les IC par bootstrap pour chaque coordonnée de 
raies avec À considéré comme fixé. 
7) Généraliser la question précédente en incluant la détermination de &. 


5.8 Notes 


Quelquefois l'hypothèse de normalité (H3), nécessaire à la validité des tests et des inter- 
valles de confiance, n’est pas vérifiée ou non vérifiable. Les tests qui permettent de choisir 
entre des modèles contraints ou des modèles non contraints (ou tests entre modèles em- 
boîtés) peuvent être alors remplacés par une des procédures de choix de modèles décrites 
au chapitre 7. 

Pour les intervalles de confiance, une procédure spécifique existe, basée sur le bootstrap. 
Nous présenterons également des résultats asymptotiques. 


5.8.1 Intervalle de confiance : bootstrap 


L'objectif de cette section est de présenter la méthode du bootstrap en régression afin 
que le lecteur puisse obtenir un intervalle de confiance pour B, sans donner d’hypothèse 
supplémentaire sur la loi des erreurs €. Le lecteur intéressé par le bootstrap en tant que 
méthode statistique pourra consulter le livre de Efron & Tibshirani (1993). 
Le modèle utilisé est Y = X8 + € où € est une variable aléatoire de loi F inconnue et 
d’espérance nulle. L’idée du bootstrap est d’estimer cette loi par ré-échantillonnage. 
Nous considérons que la constante fait partie du modéle. La somme des résidus estimés 
vaut donc zéro. 

— A partir du nuage de points (X,Y), estimer par les MC B et € par B et ê. Soit Fn 

la distribution empirique des é. 

— Tirer au hasard avec remise n résidus estimés €; notés €;. 

— A partir de ces n résidus, construire un échantillon 


Y*=Xĝ+ 


appelé échantillon bootstrapé ou encore échantillon étoile. 
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— A partir de l’échantillon étoile (X, Y*) estimer le vecteur des paramètres. La solution 
est 


B* = Cea X'Y*. 


La théorie du bootstrap indique que la distribution de J/n(B *_ 8), distribution que nous 
pouvons calculer directement à partir des données, approche correctement la distribution 
de Vn(B — B) qui elle ne peut pas être calculée, puisque B est inconnu. 

Afin de calculer la distribution de 4/n(B* — 8) nous calculons B échantillons bootstrapés 
ou étoiles et calculons ensuite B estimateurs ĝ* de B. 


Il faut donc répéter B fois les étapes suivantes : 
(k) 


= TB + en), appelé échan- 


— tirer au hasard avec remise n résidus estimés €; notés ê 
(k) 


— à partir de ces n résidus, construire un échantillon y; 
tillon bootstrapé ; 

— à partir de cet échantillon bootstrapé, estimer BH : 
Pour donner un ordre d’idée, une valeur de 1000 pour B est couramment utilisée. Nous 
obtenons alors B estimateurs de 6 noté B, A partir de ces 1000 valeurs, nous pouvons 
calculer toutes les statistiques classiques. Si nous nous intéressons à la distribution des Bj, 


nous pouvons estimer cette distribution en calculant l’histogramme des we De méme 


un intervalle de confiance peut étre obtenu en calculant les quantiles empiriques des B Kee 


Voyons cela sur l’exemple de la concentration en ozone. Nous continuons notre modèle à 
3 variables explicatives des pics d’ozone, la température à 12 h (T12), la nébulosité à 12 h 
(Ne12) et la projection du vent à 12 h sur l’axe est-ouest (Vx). Le modèle est toujours 
construit grace à la commande suivante : 


| > modele3 <- 1m(03 ~ T12 + Vx + Ne12, data = ozone) 


Nous pouvons résumer la phase d’estimation et nous intéresser aux coefficients. 


> resume3 <- summary (modele3) 

> resume3$coefficients[,1:2] 
Estimate Std. Error 

(Intercept) 84.5473326 13.6067253 


T12 1.3150459 0.4974102 
Vx 0.4864456 0.1675496 
Ne12 -4.8933729 1.0269960 


Cette procédure ne suppose que deux hypothèses très faibles Hi et H2. Afin de construire 
un intervalle de confiance pour les paramètres sans supposer la normalité, nous appliquons 
la procédure de bootstrap. 

La première étape consiste à calculer les résidus estimés ê = Ÿ -Y et ajustements Ŷ. 


res <- residuals (modele3) 

ychap <- predict (modele3) 

COEFF <- matrix(0, ncol = 4, nrow = 1000) 
colnames (COEFF) <- names(coef (modele3) ) 
ozone.boot <- ozone 


VVVV MV 
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Ensuite nous allons appliquer la procédure de bootstrap avec B = 1000 échantillons 
bootstrapés. 


> for(i in 1:nrow(COEFF)){ 

resetoile <- sample(res, length(res), replace=T) 
03etoile <- ychap + resetoile 

ozone.boot[,"03"] <- O3etoile 

regboot <- 1lm(formula(modele3), data=ozone.boot) 
COEFF [i,] <- coef(regboot) 


t+ + + + + + 


} 


Nous avons obtenu une matrice de 1000 coefficients estimés (COEFF) et nous choisissons 
les quantiles empiriques à 2.5 % et 97.5 % de ces échantillons afin de déterminer les 
intervalles de confiance. 


> apply(COEFF, 2, quantile, probs = c(0.025,0.975)) 
pPp1y q P 


(Intercept) T12 Vx Ne12 

2/57, 57.88882 0.3815498 0.1689669 -6.803680 

97.5% 109.99762 2.3447899 0.7837472 -2.972169 
Un IC à 95 % pour le coefficient associé à T12 est donc donné par (0.41; 2.26]. En supposant 
que les erreurs suivent une loi normale, nous avions [0.48; 2.15]. L’intervalle est donc plus 
grand. 
Nous pouvons aussi considérer un estimateur de la densité des B; en traçant un histo- 
gramme des ae . Voici Vhistogramme des estimateurs du coefficient associé à la variable 
température : 


> hist (COEFF[,"T12"], main = "", xlab = "Coefficient de T12") 


Cet histogramme semble indiquer que la loi est proche d’une loi normale. 
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Fig. 5.5 — Histogramme des estimateurs bootstrapés pour la variable T12. 


Nous aurions pu commencer par tirer avec remise n individus parmi les n couples d’ob- 
servations (x/, yi) et continuer comme présenté ci-dessus. Ce bootstrap est plus adapté 
au cas où les variables X; sont des variables aléatoires. Les lecteurs intéressés par cette 
procédure peuvent consulter Efron & Morris (1973) par exemple. 
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5.8.2 Test de Fisher pour une hypothèse linéaire quelconque 


Dans la partie 5.5.2, nous avons testé la nullité simultanée d’un certain nombre de coef- 
ficients. Cela nous a permis de transcrire facilement l’hypothèse Ho en termes d’espace. 
Nous allons aborder maintenant le cas où ’hypothése à tester est de la forme R8 =r. 
Rappelons nos trois questions initiales : 

(a) est-ce que la valeur de 03 est influencée par Vx? 

(b) y a-t-il un effet nébulosité ? 

(c) est-ce que la valeur de 03 est influencée par Vx et T12? 
Toutes ces hypothèses sont des cas particuliers de l’hypothése linéaire générale : 


Ho: RB =0 contre Hı: R8 #0, 
où R est une matrice q x p connue de rang q. Il suffit de poser 


(a) R = [ 0 
(b) R = [0 


(c) a= |} 


or © © 
Ro © FF 


où R est une matrice q x p de rang q, r est un vecteur de taille q et où R et r sont 
connus. Nous imposons q contraintes linéaires 2 à 2 indépendantes sur les coefficients 
Bj. Cette façon de procéder permet de tester également 


B; = BS R= [0 -) oes 0] r= po; 
By = Bi R= [0 +) ov —1; + 0] ie 


où encore les q derniers 8; sont nuls grâce aux matrices 
us = [0 l] r= 0q. 


Nous imposons la contrainte générale RG = r. Cela revient à imposer en fait q (le rang 
de R) contraintes linéaires sur les paramètres et cela peut se traduire d’un point de vue 
géométrique par E(Y) n’appartient plus à l’espace engendré par toutes les colonnes de 
X, espace que nous avons noté S(X) mais à un sous-espace engendré par les colonnes de 
X satisfaisant la contrainte linéaire RG = 0. 


Définition 5.1 
Une hypothèse linéaire quelconque Ho est de la forme RG — r = 0, où R est une matrice 
de taille q x p de rang q et r un vecteur de taille q. 


Théorème 5.3 

Soit un modèle de régression à p variables Y = XB + e satisfaisant Hı et H3. Nous 
souhaitons tester dans le cadre de ce modèle la validité d’une hypothèse linéaire quelconque 
Ho RB =r, avec le rang de R égal à q, contre Hı RB Ær. Soit So le sous-espace de Sx 
de dimension (p — q) engendré par la contrainte RB = r (ou Ho) et Sx le sous-espace de 
dimension p associé à Hı. 
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Pour tester ces deux hypothèses nous utilisons la statistique de test F ci-dessous qui 
possède comme loi sous Ho : 
IÊ — Yol|?/dim(St N Sx) 
IY —Y¥|)?/dim(Sx1) 
n—p |lY — Yol? - |Y -Ÿ|? 


F 


q IY — Ÿ 12 
n-pSCRo-SCR |, 
q SCR gnap: 


et sous Hı la loi reste une loi de Fisher mais décentrée de |Potnsx X ||? /o?. L’estima- 


tion Yo est donnée par 
Xĝo = XB+X(X'X)1R’[R(X'X)'R] (r- RB). 


L'hypothèse Ho sera repoussée en faveur de Hı si l’observation de la statistique F est 
supérieure à fan-p(1— a), la valeur a étant la probabilité de rejeter à tort Ho ou erreur 
de première espèce. 


Preuve 

Nous pouvons toujours traduire l'hypothèse Ho : R = r en termes de sous-espace de 
Sx. Lorsque r = 0, nous avons un sous-espace vectoriel de Sx et lorsque r # 0 nous 
avons un sous-espace affine de Sx. Dans les deux cas, nous noterons ce sous-espace So et 
So C Sx. Cependant nous ne pourrons plus le visualiser facilement comme nous l’avons 
fait précédemment avec Sx, où nous avions enlevé des colonnes à la matrice X. Nous 
allons décomposer l’espace Sx en deux sous-espaces orthogonaux 


Sx = So D (So N Sx). 


Sous Ho, l'estimation des moindres carrés donne Yo projection orthogonale de Y sur So 
et nous appliquons la méme démarche pour construire la statistique de test. La démons- 
tration est donc la méme que celle du théoréme 5.2. C’est-a-dire que nous regardons si 
Yo est proche de Y et nous avons donc 


IÊ — Yoll?/dim(S¢ N Sx) 
IY —Ÿ12/dim(S x) 
n-p |Y —Yoll? -IY —Y|)? 


q IY - ÎI? 
n-pSCRo-SCR + 
= aq SCR anp: 


Le problème du test réside dans le calcul de Yo. Dans la partie précédente, il était facile 
de calculer Yo car nous avions la forme explicite du projecteur sur So. 

Une première façon de procéder revient à trouver la forme du projecteur sur So. Une 
autre façon de faire est de récrire le problème de minimisation sous la contrainte RG = r. 
Ces deux manières d’opérer sont présentées en détail dans la correction de l’exercice 2.13. 
Dans tous les cas l’estimateur des MC contraints par Rp = r est défini par 


Bo = B+(X'X)1R[R(X'X) LR] (r — RB). 


114 Régression avec R 


5.8.3 Propriétés asymptotiques 


Nous allons étudier des propriétés asymptotiques de B et 6? lorsque la taille de l’échan- 
tillon n tend vers l'infini. Ce type d’études permet de s’assurer de la pertinence des 
estimateurs. En effet, nous savons que pour n fixé, l’estimateur B est sans biais pour £, 
et de variance minimum parmi les estimateurs linéaires sans biais (théorème de Gauss- 
Markov). Mais lorsque n augmente, c’est-à-dire lorsque la quantité de données et donc 
linformation augmente, est-ce que B va tendre vers 6 ? Sous quelles conditions cette 
convergence (en moyenne quadratique) se produit-elle ? 

Commençons par introduire quelques notations. Pour chaque n, les données sont notées 
par (yn, XnB,0?1n). Nous supposerons que la matrice X,, de dimension n x p, est de 
rang p pour tout n > m. Pour n > m, nous définissons la suite Bn par 


Bn = (Xn Xn) Xnyns 
avec E(f,) = B et V(Bn) = o (X4 Xn). 


Une condition suffisante pour que la suite (Bn) converge vers 3 en moyenne quadratique, 
et donc en probabilité, est que V(G,) converge vers zéro. 


Théorème 5.4 (Convergence de 8) 
Sous Hı et He, si (XXn)! tend vers zéro avec n alors Bn converge vers 8 en moyenne 
quadratique et en probabilité. 


Rappelons que si les variables X1, ..., Xp sont supposées aléatoires, ce qui n’est pas le cas 
ici, (X}, Xn)/n est un estimateur de la matrice de variance des p variables explicatives. 
A priori, si les X; sont mesurées, nous pouvons supposer qu’elles sont mesurées avec des 
erreurs, même petites. Cela permet de penser que ces variables peuvent être considérées 
comme aléatoires. En pratique, nous supposons toujours qu’un vecteur aléatoire admet 
une matrice de variance À fixée et donc a priori (Xp Xn)/n — A. Comme A est fixée, 
nous avons n(X/,X,,)~! — A`! et donc (X/,X,,)~! — 0. La condition de convergence 
n’est donc absolument pas contraignante. 

Nous savons que V(8n) = 0?(X/,Xn)~1, où o? est fixé. La condition de convergence 
s'exprime donc comme « la variabilité de Bn tend vers 0 avec n », ce qui semble assez 
naturel. 


Preuve 


E (lôn — Bl?) = E (lôn — El?) 
= tr[V(ĝn)] 
o’°tr( XL Xn). 


Si (X},Xn)7' tend vers zéro, tr(X/,Xn)~") tend vers zéro et le théorème est démontré. 


Nous pouvons aussi considérer l’estimateur 6? et se poser la même question : quelles sont 
les conditions nécessaires pour que l’estimateur converge vers sa vraie valeur quand le 
nombre de données augmente ? 


Théorème 5.5 (Convergence de 6?) 


Si Hı et He sont vérifiées et si les c; sont i.i.d. avec E[e?] = 0? < œœ, alors 62 converge 


vers o° en probabilité. 


Inférence dans le modèle gaussien 115 


Preuve 
Partons de la définition de 62 : 
22 L aa 
On — EnEn 
n— p 
l ; 
— En(I T Px, En 
n— p 
1 1 
= Ehen Eh Px, En. 
n— p n= p 


La loi forte des grands nombres indique que le premier terme converge p.s. vers o°. Nous 
allons montrer que le second terme converge en probabilité vers zéro. Pour tout 7 positif, 
Vinégalité de Markov donne 


Yn >0, P Gen > 1) < q pg EEPren) 
< gpp Blin en Peer) 
T = o? tr(Px,) 
< ner — 0. 


La derniére partie de cette note concerne la normalité asymptotique. Cela va permettre 
de donner des intervalles de confiance (IC) et de faire des tests sans supposer d’hypothése 
supplémentaire sur la loi des € car nous utiliserons alors la loi limite. 


Théoréme 5.6 (Normalité asymptotique) 
Si Hı et He sont vérifiées, si les e; sont i.i.d. avec E[e?] = 0? < 00, et si (X/),Xn)/n tend 
vers A (strictement) définie positive (donc inversible), alors 


Vn(Bn — B) + N(0,07A™") 
Preuve 
Nous allons donner une idée de la preuve de ce théoréme. 


Vn(Bn = B) = Jn (X; Xn) we ai B) 
= yn ((X4 Xn) X} (Xnb + en) — 2) 
= yn ((Xn Xn) Shen) 


1 X! Xa Tale 
y/n n Fe 


Posons w; la if colonne de la matrice n(x TX, a Xa: Nous utilisons ensuite un théoréme 
central limite pondéré qui se trouve dans Antoniadis et al. (1992). 


Nous retrouvons la même condition sur la convergence de (X},Xn)~*. Il semble raison- 
nable de penser que cette condition est vérifiée. Afin d’utiliser ce théoréme en pratique, 
pour calculer des intervalles de confiance, nous devons savoir si, avec les observations et 
leur nombre, nous avons (X/,X,)~* suffisamment proche de 0. Le problème est bien sûr 
impossible à résoudre formellement et, comme cette convergence dépend à la fois de la 
taille de l’échantillon n et des observations Xn, il n’existe pas de règle du type « à partir 
de 100 observations on peut... ». 
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Hypothèse gaussienne 


Nous supposons dorénavant que les résidus suivent une loi normale de moyenne nulle et de 
variance o°Q. Nous avons alors les propriétés classiques suivantes (dont la démonstration 
consiste à se ramener au modèle (*) et à faire comme pour les MC). 


Proposition 5.5 

i) Êmca est un vecteur gaussien de moyenne B et de variance o?(X'Q71X)7}. 
ii) Mc vérifie (n — p)6Mce/o” ~ Xn-p- 

iti) Buca et êoa sont indépendants. 


Nous pouvons aussi tester une hypothèse linéaire quelconque. 


Théorème 5.7 

Soit un modèle de régression à p variables Y = XB + e satisfaisant Hı et H3. Nous 
souhaitons tester dans le cadre de ce modèle la validité d’une hypothèse linéaire quelconque 
Ho: RB =r, avec le rang de R égal à q, contre Hı: RB # r. Soit So le sous-espace de 
Sx de dimension (p— q) engendré par la contrainte RB = r (ou Ho) et Sx le sous-espace 
de dimension p associé à Hi. 

Pour tester ces deux hypothèses nous utilisons la statistique de test F : 


a \|r — RBuceallfa(xre-1x)-1R}-1 WER. 
[Y — XBucell2-1 q 


? 


qui sous Ho suit la lot Fgn—p. L'hypothèse Ho sera repoussée en faveur de Hi, au niveau 
a du test, si l’observation de la statistique F est supérieure à fan—p(1 — a). 


Les applications sont identiques à celles rencontrées en régression ordinaire et l’on peut 
citer par exemple les tests de Student de nullité d’un coefficient ou les tests de Fisher de 
nullité simultanée de q coefficients. 


Chapitre 6 


Variables qualitatives : 
ANCOVA et ANOVA 


6.1 Introduction 


Jusqu'à présent, les variables explicatives étaient quantitatives continues. Or il 
arrive fréquemment que certaines variables explicatives soient des variables quali- 
tatives. Dans ce cas, pouvons-nous appliquer la méthode des moindres carrés que 
nous venons de voir ? 

Reprenons l'exemple des eucalyptus, nous avons mesuré 1429 couples circonférence- 
hauteur. Parmi ces 1429 arbres, 527 proviennent d’une partie du champ notée bloc 
A1, 586 proviennent d’une autre partie du champ notée bloc A2 et 316 proviennent 
de la dernière partie du champ notée bloc 43. Le tableau suivant donne les 2 pre- 
mières mesures effectuées dans chaque bloc : 


Individu ht circ | bloc 
1 18.25 36 Al 
2 19.75 | 42 Al 
528 17.00 38 A2 
529 18.50 | 46 A2 
1114 17.75 36 A3 
1115 19.50 | 45 A3 
Tableau 6.1 — Mesures pour 6 eucalyptus de la hauteur et la circonférence et du 
bloc (ht, circ et bloc). 


Nous avons dorénavant 2 variables explicatives : la circonférence et la provenance 
de l’arbre. Pouvons-nous effectuer une régression multiple? Comment utiliser la 
variable bloc ? Dans cet exemple simple, nous pouvons représenter les données avec 
en abscisse la circonférence, en ordonnée la hauteur et en couleur (par exemple) 
la provenance (fig. 6.1). 
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cire 
Fig. 6.1 — Nuage de points et régression simple pour chaque niveau de bloc. La 
provenance est représentée par un symbole (rond, triangle, +) différent. 


La provenance pourrait avoir un effet sur la hauteur mais cela est difficile à ob- 
server. Afin d’intégrer la variable bloc, il faut commencer par la recoder car les 
calculs ne peuvent pas être effectués avec la variable en l’état. Chaque modalité 
est transformée en un vecteur d’indicatrices d'appartenance à la modalité : 


Al 1 0 0 
Al 1 0 0 
A2 0 1 0 
bloc = À = AQ = A= 010 
A3 0 0 1 
A3 0 0 1 


Ce codage, appelé codage disjonctif complet, remplace donc une variable admet- 
tant I modalités en I variables binaires !. Nous pouvons déjà remarquer que la 
somme des vecteurs colonnes de cette matrice A, est égale au vecteur 1. En effet 
un individu 7 admet obligatoirement une modalité et une seule et possède donc 
toujours un unique 1 sur la 7° ligne de Ae. 

Ce chapitre va traiter en détail l’analyse de la covariance”, une variable Y est 
expliquée par une (ou des) variable(s) continue(s) et une (ou des) variable(s) qua- 
litative(s). Puis nous présenterons rapidement l’analyse de la variance à un fac- 
teur (une variable Y est expliquée par une variable qualitative) et l’analyse de la 
variance à deux facteurs (deux variables qualitatives). Avant de présenter ces mé- 
thodes en détail, il nous semble important de rappeler comment écrire un modèle 
dans R. Considérons un data-frame appelé donnees où la variable à expliquer est 
Y et les variables explicatives sont X1,...,X10. Un modèle dans R s'écrit à l’aide 
d’une formule qui fait intervenir le symbole ~ 


Y - X1, data = donnees 


Les formules peuvent être utilisées dans des fonctions qui admettent des modèles 
telles que plot, lm... Nous allons présenter les principales écritures de formules 


1. Variables binaires appelées dummy variables en anglais, c’est-à-dire variables fictives. 
2. Nous noterons aussi cette analyse par l’acronyme anglo-saxon ANCOVA. 
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dans le cadre du modèle linéaire (fonction lm). Nous souhaitons tout d’abord 
estimer les paramètres du modèle 


Y = Bo + B1X1 + BaX2 + €. 


Nous écrivons alors : 


| lm(Y ~ X1 + X2, data = donnees) 


La constante est automatiquement mise dans le modèle. Si nous ne souhaitons pas 
l'intégrer, nous écrivons : 


lm(Y ~ X1 + X2 - 1, data = donnees) 


Il faut faire attention au test de Fisher global présenté à la page 102 dans ce cas. 
Si nous souhaitons travailler avec toutes les variables sauf X9 et X10, nous avons 
l'écriture simplifiée : 


lm(Y ~ . - X9 - X10, data = donnees) 


Si nous souhaitons rajouter l'interaction entre X1 et X2 sans créer la variable pro- 
duit X1*X2 dans le data-frame, nous pouvons écrire : 


| lm(Y ~ X1 + X2 + X1:X2, data = donnees) 


qui peut aussi s’écrire en version simplifiée : 


lm(Y ~ X1xX2, data = donnees) 


Si nous souhaitons étudier le modèle avec toutes les interactions d’ordre 2, nous 
écrivons : 


lm(Y ~ .72, data = donnees) 


et de façon identique avec les interactions d’ordre supérieur. Nous allons présenter 
différents modèles dans la suite de ce chapitre. 


6.2 Analyse de la covariance 


6.2.1 Introduction : exemple des eucalyptus 


L'analyse de la hauteur des arbres en fonction de la circonférence et de la prove- 
nance est un exemple classique d’analyse de la covariance. Afin de la mener à bien, 
il faut introduire la variable bloc. 


120 Régression avec R 


La démarche la plus naturelle consiste a effectuer trois régressions différentes, une 
pour chaque champ, cela donne en termes de modélisation 


Yi, Al QA1 T YA1%i,A1 T Ei, Al; t 1, ère ,527, bloc Al 
Yi, A2 QA2 T YA2Ti, A2 T Ei, A2, 4 — 1, EX , 586, bloc A2 
Yi,A3 a3 + YA3Ti, A3 + €i,43, t=1,...,316, bloc A3 
ou de manière simplifiée 
yg = AF ty te, t=1,...,n,;, j = Al, A2, 43. (6.1) 


Pour chaque modèle, il suffit d'effectuer une régression simple. 

Cependant, imaginons que nous savons que la circonférence intervient de la même 
façon dans chaque parcelle, c’est-à-dire que la pente est identique d’un champ à un 
autre. Les droites de régression sont donc parallèles. Cela donne graphiquement : 


30 40 50 60 70 
Fig. 6.2 — 3 droites de régression fictives parallèles. 


et en termes de modélisation 


Vi, Al QAI T Y Ti, A1 T Ei, Al, p= 1,...,527, bloc Al 
Yi, A2 QA2 T Y Ti, A2 T Ei A2; US 1,..., 586, bloc A2 
Yi,A3 = QA3 +y Ti, A3 +Ei,43, t=1,...,316, bloc A3. 
Nous pouvons écrire de maniére simplifiée 
Yj = Ag + Y Lig + Eijs i=1,...,n;, j = Al, A2, 43. (6.2) 


Si nous savons que l’ordonnée à l’origine est la même pour chaque parcelle et que 
seule la pente change, nous obtenons graphiquement : 
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30 40 50 60 70 
Fig. 6.3 — 3 droites de régression fictives ayant la même ordonnée à l’origine. 


et en termes de modélisation 
Yj = Q + YjTij + Eijs i= x ton TOG $) = Al, A2, A3. (6.3) 


Le coefficient y dans le modèle (6.2) est le même dans tous les blocs. Si nous effec- 
tuons trois régressions distinctes, comment trouverons-nous la même estimation de 
y? De même, comment allons-nous procéder pour obtenir le même estimateur de 
a dans chaque population en effectuant trois régressions distinctes dans le modèle 
(6.3)? Il semble raisonnable de n’effectuer qu’une seule régression mais avec des 
coefficients qui peuvent différer (ou non) selon les blocs. 


6.2.2 Modélisation du problème 


Nous traitons dans cette section le cas simple où nous disposons de deux variables 
explicatives : une variable quantitative notée X (dans l’exemple de l’eucalyptus 
X correspond à circ) et une variable qualitative notée A admettant J modalités 
dont le codage disjonctif est noté A, (dans l’exemple de l’eucalyptus, A correspond 
à bloc, elle admet 3 modalités, A, est ainsi une matrice de taille 1429 x 3). Nous 
notons X, la matrice composée de n lignes et J colonnes où la j° colonne de Xe 
correspond à la valeur de X lorsque les individus appartiennent à la modalité j, 
cela correspond au produit terme à terme de X avec chaque colonne de Ae. 


36 36 0 0 

42 42 0 0 

: 38 0 38 O 
cire = X = 46 => X= 0 46 0 
36 0 0 36 

45 0 0 45 


La matrice X. correspond à l'interaction entre X et A. Pour chaque niveau j de 
la variable qualitative, nous observons n; individus et les valeurs correspondantes 
de la variable X sont notées x1j,...,%p,;. De la même manière, nous notons les 
valeurs de la variable à expliquer y1;,...,Yn,;. Le nombre total d’observations vaut 
an Ta ny. 

Ecrivons matriciellement les trois modélisations proposées. 
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1. Soit nous considérons pour chaque niveau de la variable qualitative un modéle 
de régression (modèle 6.1), cela revient à analyser l'interaction entre les variables 
X et À, le modèle s’écrit alors 


Y = Aea + Xey + E. (6.4) 


Nous avons 7 paramètres à estimer (a et 7 sont des vecteurs à 3 coordonnées) et 
o est un scalaire positif correspondant à l’écart-type du bruit. 


2. Soit nous considérons que la variable X intervient de la même façon quels que 
soient les niveaux de la variable À (la pente de la droite est toujours la même) et 
la variable À intervient seulement sur le niveau (l’ordonnée à l’origine de la droite 
de régression). Le modèle s'écrit alors 


Y = Aa+Xy+e. (6.5) 


Nous avons 5 paramètres à estimer (a est un vecteur à 3 coordonnées) et 7 et o 
sont des scalaires. Remarquons qu’ici interaction avec A ne se fait plus avec X, 
les pentes étant identiques. Cependant les ordonnées à l’origine étant différentes 
selon les niveaux de À, il subsiste une interaction entre A et la variable 1 de la 
régression (appelée en anglais et dans les logiciels intercept). 


3. Soit nous considérons que la variable À intervient uniquement sur la pente et 
donc que l’ordonnée à l’origine ne change pas. Le modèle s’écrit 


Y = la + Xey +e. (6.6) 


Nous avons 5 paramètres à estimer (y est un vecteur à 3 coordonnées) et a et o 
sont des scalaires. 


Le choix du modèle (6.4) ou (6.5) ou (6.6) dépend du problème posé. Nous pré- 
conisons de commencer par le modèle le plus général (6.4) puis, si les pentes sont 
les mêmes, de passer au modèle simple (6.5) ou, si les ordonnées à l’origine sont 
les mêmes, de passer au modèle simple (6.6). Les modèles étant emboités, il est 
possible de tester un modèle contre un autre. 

En pratique, avant d'effectuer une modélisation, il est préférable de représenter le 
nuage des points (X, Y) en couleur, où chaque couleur représente une modalité de 
la variable A. Cette représentation permet de se faire une idée des effets respectifs 
des différentes variables. 


Remarque 

Si nous additionnons toutes les colonnes de A, nous obtenons le vecteur 1, la 
matrice (1, À.) n’est pas de plein rang. De la même manière si nous additionnons 
toutes les colonnes de Xe nous obtenons la variable X, la matrice (X, Xe) n’est 
pas de plein rang. Dans ces cas, l'hypothèse Hı n’est pas vérifiée. Le projeté Ŷ 
sur l’espace engendré par les colonnes de (1, Ae, X, Xc) existe, est unique mais 
son écriture en fonction des vecteurs (vecteurs colonnes) engendrant l’espace ne 
lest pas. Nous aborderons dans la partie analyse de la variance de ce chapitre les 
différentes manières de procéder. 
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Les trois modèles que nous venons de voir peuvent s’écrire de manière générique 
Y = XB+E 

où X est de taille respective n x 21 (6.4), et n x (I + 1) dans les autres cas. Nous 

avons la propriété suivante (voir exercice 6.2) : 


Proposition 6.1 

L’estimateur des MC de B est obtenu dans le modèle (6.4) en effectuant une ré- 
gression simple pour chaque niveau i de la variable qualitative A. L’estimateur des 
MC de o° est 


I Ni 


p= DIT TE 


j=l i=1 


Remarquons que, même si l’estimateur des MC de 8 peut être obtenu en effec- 
tuant une régression simple pour chaque niveau À de la variable A, l’analyse de la 
covariance suppose l'égalité des variances des erreurs pour chacun des niveaux i de 
la variable A. Il n’en va pas de même pour les J régressions simples où les modèles 
ne sont pas contraints à avoir la même variance et où l’on aura donc I variances 
d’erreurs différentes. 


6.2.3 Hypothèse gaussienne 


Sous l’hypothèse de normalité des erreurs €, nous pouvons tester toutes les hypo- 
thèses linéaires possibles. Les modèles (6.5) et (6.6) sont emboités dans le modèle 
général (6.4). Un des principaux objectifs de l’analyse de la covariance est de savoir 
si les variables explicatives influent sur la variable à expliquer. Les deux premiers 
tests que nous effectuons sont 


1. le test d'égalité des pentes 


Hy © mes Hy 2 ji): ny 
Cela revient à tester le modèle (6.5) contre (6.4). 


2. Le test d'égalité des ordonnées à l’origine 


(i,j) : ai £ aj 


Ho : =" =Q 5 Q Hı 


Cela revient à tester le modèle (6.6) contre (6.4). 


La statistique de test vaut donc (théorème 5.2, p. 100) 


[= Pol? /d - 1) 
IY = ¥]]?/(n — 21) 


L’hypothése Ho sera rejetée en faveur de H; si l'observation de la statistique F est 
supérieure à fr-1,n-1(1— a) et nous conclurons à l'effet du facteur explicatif. 
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Pour résumer, nous partons donc du modèle complet 
Y = Aca + Xey +e, 


et acceptons : 
— soit 


Y = Aea + Xy +e, 


nous pouvons ensuite tester soit la nullité de la pente (la variable quantitative 
X wapporte pas d’information quant à lexplication de Y), soit légalité des 
différentes a; (la variable qualitative A n’apporte pas d’information quant à l’ex- 
plication de Y); 

— soit 


Y = la + Xey +e, 
nous pouvons ensuite tester légalité des pentes (la variable qualitative A n’ap- 
porte pas d’information quant à l’explication de Y). 
6.2.4 Exemple : la concentration en ozone 


Nous souhaitons expliquer la concentration en ozone 03 en fonction de la tempéra- 
ture T12 et de la direction du vent vent, variable qualitative prenant 4 modalités : 
NORD, SUD, EST et OUEST. Le modèle que nous souhaitons estimer est le suivant : 


ozone = a + Tiz + yvent +e. 
La variable vent étant qualitative, elle doit être codée et le modèle s’écrit 
ozone = a+ PTi2 + YElvent=NORD +++: + YOlvent=0UEST + €. 


Ce modèle n’est pas identifiable et nous allons voir les différentes manières de poser 
des contraintes identifiantes. 
Nous commençons cette étude par l'analyse graphique (fig. 6.4). 


25 30 


20 
T12 
Fig. 6.4 — Nuage de points et régression simple pour chaque niveau de vent. Le 
niveau de vent est représenté par un symbole (rond, triangle, +, carré) différent. 
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Les pentes des différentes régressions sont différentes, il semble que la modélisation 
de la concentration de l’ozone en fonction de la température dépende de la variable 
vent. Pour obtenir le graphique (6.4), nous utilisons les commandes suivantes : 


abline(ai, col=1) 
abline(a2, col=2) 
abline(a3, col=3) 
abline(a4, col=4) 


VVVVVVVV+FV NV 


Le modèle avec interaction (6.4) s’écrit : 


ozone <- read.table("ozone.txt", header 
plot(ozone[,"T12"], ozone[,"03"] ,pch=as.numeric(ozone[,"vent"]), 
col = as.numeric(ozone[,"vent"])) 
ai <- 1m(03 ~ T12, data = ozone[ozone[,"vent"]=="EST",]) 
a2 <- 1m(03 ~ T12, data = ozone[ozone[,"vent"]=="NORD",]) 
a3 <- 1m(03 ~ T12, data = ozone[ozone[,"vent"]=="QUEST",]) 
a4 <- 1m(03 ~ T12, data = ozone[ozone[,"vent"]=="SUD",]) 


= Ws sep 


= Det) 


> modib <- lm(formula = 03 ~ -1 + vent + Ti2:vent, data = ozone) 


Nous enlevons la constante en écrivant —1. Ensuite il faut conserver une ordonnée 
à l’origine différente pour chacune des modalités du vent, ce qui est représenté 
par le facteur vent (ou une interaction de la variable 1 avec vent). Ensuite nous 
ajoutons un coefficient directeur différent pour chacune des modalités du vent, ce 
qui est représenté par la variable T12 en interaction avec vent. Cela donne : 


> summary (mod1b) 


.273 
.804 
.627 
.020 
.333 
.027 
. 283 


Coefficients: 
Estimate Std. Error t value 

ventEST 45.6090 13.9343 
ventNORD 106.6345 28.0341 
ventOUEST 64.6840 24.6208 
ventSUD -27 .0602 26.5389 
ventEST:T12 2.7480 0.6342 
ventNORD:T12 -1.6491 1.6058 
ventOUEST:T12 0.3407 1.2047 
ventSUD:T12 5.3786 1.1497 


.678 


Pr(>|tl) 
.002133 
.000456 
.011967 
ere 
.96e-05 
.310327 
. 778709 
.00e-05 


WooWdaend 


kkk 


2K 


Si, dans l’écriture du modèle, la constante est conservée, le logiciel va prendre 
comme cellule de référence la première cellule (définie par ordre lexicographique). 


Cela donne : 
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> modi <- lm(formula = 03 ~ vent + Ti2:vent, data = ozone) 
> summary (mod1) 
Coefficients: 

Estimate Std. Error t value Pr(>|t|l) 
(Intercept) 45.6090 13.9343 3.273 0.00213 ** 


ventNORD 61.0255 31.3061 1.949 0.05796 . 
ventOUEST 19.0751 28.2905 0.674 0.50384 
ventSUD -72.6691 29.9746 -2.424 0.01972 * 
ventEST:T12 2.7480 0.6342 4.333 8.96e-05 *** 
ventNORD:T12 -1.6491 1.6058 -1.027 0.31033 
ventOUEST:T12 0.3407 1.2047 0.283 0.77871 
ventSUD:T12 5.3786 1.1497 4.678 3.00e-05 *** 


Les coefficients des ordonnées à l’origine sont des effets différentiels par rapport à 
la cellule de référence (ici ventEST). Par exemple 61.0255+45.6090=106.6345 qui 
est la valeur de ventNord dans l’écriture précédente. 


Le modèle avec une seule pente (6.5) peut s’écrire : 


> mod2 <- lm(formula = 03 ~ vent + T12, data = ozone) 
> mod2b <- lm(formula = 03 ~ -1 + vent + T12, data = ozone) 


Le modèle avec une seule ordonnée à l’origine (6.6) peut s’écrire : 
> mod3 <- lm(formula = 03 ~ vent:T12, data = ozone) 


Nous procédons de la manière suivante pour choisir la meilleure modélisation. 


1. Egalité des pentes : nous effectuons un test entre le modèle (6.5) et (6.4) 
grâce à la commande : 


> anova(mod2,mod1) 

Analysis of Variance Table 
Model 1: 03 ~ T12 + vent 
Model 2: 03 - vent + Ti2:vent 


Res.Df RSS Df Sum of Sq F Pr(>F) 
al 45 12612.0 
2 42 9087.4 3 3524.5 5.4298 0.003011 ** 


Nous concluons donc à l'effet du vent sur les pentes comme nous le suggérait la 
figure 6.4. Nous aurions obtenu les mêmes résultats avec mod2b contre mod1, ou 
mod2 contre mod1b ou encore mod2b contre mod1b. 


2. Egalité des ordonnées à l’origine : nous effectuons un test entre le modèle 
(6.6) et (6.4) grâce à la commande : 


Variables qualitatives : ANCOVA et ANOVA 127 


> anova(mod3,mod1) 

Analysis of Variance Table 
Model 1: 03 ~ vent:T12 

Model 2: 03 ~ vent + Ti2:vent 


Res.Df RSS Df Sum of Sq F Pr(>F) 
1 45 11864.1 
2 42 9087.4 3 2776.6 4.2776 0.01008 * 


Nous concluons donc à l'effet du vent sur les ordonnées à l’origine comme nous le 
suggérait la figure 6.4. 


Enfin, le graphique de résidus (fig. 6.5) obtenu avec : 


| > plot(rstudent (mod2) ~ fitted(mod2) ,xlab="ychap",ylab="residus") 


ne fait apparaître ni structure ni point aberrant. 
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Fig. 6.5 — Résidus studentisés du modèle 1. 


En revanche, si on analyse la structure des résidus par modalité de Vent 


> xyplot (rstudent (mod2) ~fitted(mod2) |vent, 


data = ozone, ylab="residus") 


on constate une structuration des résidus pour la modalité SUD. Cependant cette 
structuration n’est constatée qu’avec 7 individus, ce qui semble trop peu pour que 
cette conclusion soit fiable. 
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Fig. 6.6 — Résidus studentisés du modèle 1 (ou 1b) par niveau de vent. 


Remarque 

Pour l’exemple de l’ozone, nous conservons donc le modèle complet. Il faut faire 
attention à l’écriture du modèle en langage « logiciel ». L’écriture logique du point 
de vue du logiciel consiste à écrire : 


| > mod <- lm(formula = 03 ~ vent + T12 + T12:vent, data = ozone) 


En effet, nous utilisons bien les 3 variables vent, T12 et leur interaction. En écrivant 
de cette manière, la matrice X du modèle est composée de 1, Ae, T12 et de T12,. 
Cette matrice n’est pas de plein rang. Le logiciel, pour pouvoir inverser cette 
matrice, doit imposer des contraintes (que nous verrons plus en détail dans la suite 
de ce chapitre). Le logiciel R va prendre comme cellule de référence la première 
cellule * (définie par ordre lexicographique) et calculer des effets différentiels par 
rapport à cette cellule. Sur exemple de l’ozone la cellule de référence va être EST 
et nous obtenons : 


3. Dans certaines procédures, SAS utilise la derniére cellule comme cellule de référence. 
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> modO <- lm(formula = 03 ~ vent +T12 + Ti2:vent, data = ozone) 
> summary (modO) 
Coefficients: 
Estimate Std. Error t value Pr(>|t|l) 
(Intercept) 45.6090 13.9343 3.273 0.00213 ** 


ventNORD 61.0255 31.3061 1.949 0.05796 . 
ventOUEST 19.0751 28.2905 0.674 0.50384 
ventSUD -72.6691 29.9746 -2.424 0.01972 * 
T12 2.7480 0.6342 4.333 8.96e-05 *** 
ventNORD:T12 -4.3971 1.7265 -2.547 0.01462 * 
ventOUEST:T12 -2.4073 1.3614 -1.768 0.08429 . 
ventSUD:T12 2.6306 1.3130 2.004 0.05160 . 


Intercept et T12 sont bien les valeurs de l’ordonnée à l’origine et de la pente pour 
le vent d’EST. 


6.2.5 Exemple : la hauteur des eucalyptus 


Nous commençons par le modèle complet obtenu grâce aux commandes : 


> eucalypt[,"bloc"] <- as.factor(eucalypt[,"bloc"]) 
> m.complet <- 1m(ht ~ bloc - 1 + bloc:circ, data = eucalypt) 


qui correspond au modèle 
Vi = Qj + Yj Lig + Eij, i=1,...,n;, j = Al, A2, 43. 


Nous estimons ensuite les paramètres dans le modèle admettant une pente com- 
mune quelle que soit l’origine des eucalyptus 


Yj = aj +7 Lig + Eij, i=1,...,n;, j = Al, A2, 43 
grâce à la commande : 
> m.pente <- Im(ht ~ bloc - 1 + circ, data = eucalypt) 


Nous estimons également les paramètres dans le modèle où nous supposons que 
l’origine de l’arbre influence la pente uniquement 


Yi = atyjeigtey t=1,...,n; champ j j= Al, A2,A3 
avec la commande 
> m.ordonne <- Im(ht ~ bloc:circ, data = eucalypt) 


Les deux derniers modéles sont emboités dans le premier. Nous pouvons tester : 
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1. L’égalité des pentes 


> anova(m.pente, m.complet) 
Analysis of Variance Table 

Model 1: ht ~ bloc - 1 + circ 
Model 2: ht ~ bloc - 1 + bloc:circ 


Res.Df RSS Df Sum of Sq F Pr(>F) 
1 1425 2005.90 
2 1423 2005.05 2 0.85 0.3007 0.7403 


Nous conservons le modèle avec une seule pente. 


2. L’égalité des ordonnées 


> anova(m.ordonne, m.complet) 
Analysis of Variance Table 

Model 1: ht ~ bloc:circ 

Model 2: ht ~ bloc - 1 + bloc:circ 


Res.Df RSS Df Sum of Sq F Pr(>F) 
1 1425 2009.21 
2 1423 2005.05 2 4.16 1.4779 0.2285 


Nous conservons le modèle avec une seule ordonnée à l’origine. 


Nous avons donc le choix entre les 2 modèles 


Yij = A+ Yjlij + Eig, 1=1,...,n;, j = Al, A2, 43 


Yi = Qj + YLij T Eijs i=1,...,n;, j = Al, A2, 43. 


Ces modèles ne sont pas emboîtés. Cependant nous estimons le même nombre de 
paramètres (4) et nous pouvons donc comparer ces modèles via leur R?. Nous 
choisissons le modèle avec une pente. Pour terminer cette étude, nous comparons 
le modèle retenu avec le modèle de régression simple, c’est-à-dire le modèle où 
l’origine n'intervient pas : 


Yij = Q + YTij + Eij, i=1,...,n;, j = Al, A2, 43. 


> m.simple <- Im(ht ~ circ, data = eucalypt) 
> anova(m.simple, m.pente) 
Analysis of Variance Table 


Model 1: ht ~ circ 
Model 2: ht ~ bloc - 1 + circ 
Res.Df RSS Df Sum of Sq F PrF) 
1 1427 2052.08 
2 1425 2005.90 2 46.19 16.406 9.03e-08 *** 
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Nous conservons le modèle avec des ordonnées différentes à l’origine selon le bloc 
mais une méme pente. Pour terminer cette étude, analysons les résidus studentisés. 


résidus 
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Fig. 6.7 — Résidus studentisés du modèle avec des pentes identiques. 


6.3 Analyse de la variance à 1 facteur 


6.3.1 Introduction 


Nous modélisons la concentration d’ozone en fonction du vent (quatre secteurs 
donc quatre modalités). Dans le tableau suivant figurent les valeurs des 10 premiers 


individus du tableau de données. 


individu | 1 2 3 4 5 6 7 8 9 10 
Oz 64 90 79 81 88 68 139 78 114 42 
Vent E N E N O S$ E N S O 


Tableau 6.2 — Tableau des données brutes. 


La premiére analyse a effectuer est une représentation graphique des données. 
Les boîtes à moustaches (boxplots) de la variable Y par cellule semblent les plus 


adaptées à l’analyse. 
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Fig. 6.8 — Boxplot de la variable 03 en fonction du vent (4 modalités). 


Au vu de ce graphique, il semblerait que le vent ait une influence sur la valeur de la 
concentration d'ozone. La concentration est plus élevée en moyenne lorsque le vent 
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vient de PEST et au contraire moins élevée lorsque le vent vient de la mer (NORD 
et OUEST). Afin de préciser cette hypothése, nous allons construire une analyse de 
la variance 4 un facteur explicatif : le vent. 


6.3.2 Modélisation du problème 


Dans ce cas simple, nous avons une variable explicative et une variable à expliquer 
et nous voulons expliquer la concentration d’ozone par le vent. Ce cas est appelé 
analyse de variance“ à un facteur, qui est la variable qualitative explicative. Nous 
remplaçons la variable À par son codage disjonctif complet, c’est-à-dire que nous 
remplacons le vecteur À par I = 4 vecteurs lyor, Isup, Lest, Loursr indiquant l’ap- 
partenance aux modalités NORD, SUD, EST ou OUEST. Ces quatre vecteurs sont 
regroupés dans la matrice A, = (Îworp, Îsun, Lest, Louesr). Le modèle de régression 
s’écrit alors sous forme matricielle 


Y = ul + Aco + €. (6.7) 


La variable qualitative A engendre une partition des observations en I groupes 
(ici 4) souvent appelés cellules. La i cellule est constituée des n; observations de 
la variable à expliquer Y admettant le caractère 7 de la variable explicative. Nous 
avons au total n observations avec n = SL ni. Les données sont ainsi regroupées 
en cellules selon le tableau suivant : 


Vent | NORD | SUD | EST | OUEST 
90 68 64 88 
O3 81 114 | 79 42 
78 139 


Tableau 6.3 — Tableau des données brutes regroupées par cellule. 


Classiquement, en analyse de la variance, on utilise des tableaux de la forme (6.3). 
Dans ce tableau, la notation des n individus ne se fait pas classiquement de 1 à 
n. En effet, doit-on lire l’ordre des individus dans le sens des lignes du tableau ou 
dans le sens des colonnes ? Par convention, la valeur y;; correspond au j° individu 
de la cellule i. Les individus ne seront donc plus numérotés de 1 à n mais suivant 
le schéma (1,1), (1,2), +--+, (1, n1), (2,1), (2,2), ---, (7,1), +--+, U,nr) pour bien 
insister sur l'appartenance de l’individu à la modalité à qui varie de 1 à J. 

Le modèle 


Yi = u + a Ay + agAg; + a3A3; + a4Asi tei, i=1,...,n 
s’écrit alors avec ces notations 


Yij = H + Qi + Es, i=1,...,n;, j=1,...,4. (6.8) 


4. Nous utilisons aussi l’acronyme ANOVA (analysis of variance) très répandu en statistique. 
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Revenons à l'écriture matricielle 
Y = pl+A.ate 


Si nous additionnons toutes les colonnes de A, nous obtenons le vecteur 1, la 
matrice X = (1, Ae) n’est pas de plein rang et l’hypothése Hı n’est pas vérifiée. 
Remarquons que cela entraîne que (1, Ae) (L, Ac) n’est pas de plein rang et nous 
ne pouvons pas calculer son inverse directement. Nous ne pouvons donc pas ap- 
pliquer directement au modèle (6.7) les résultats des chapitres précédents. Nous 
sommes ici confrontés à un problème d’identifiabilité. 


Peut-on estimer u et a ou plus exactement peut-on déterminer y et 
a de manière unique ? En termes statistiques le modèle est-il identifiable ? 
Considérons le modèle (6.8) et posons % = u + 1024 et a; = a; — 1024 pour 
i=1,...,1, nous avons alors 


Yj = pet ay + Eij = p+ Qi + Eij. 


Deux valeurs différentes des paramètres donnent les mêmes valeurs pour Y. Il est 
même facile de voir qu’une infinité de valeurs différentes de (u,a;) donnent le 
même Y. Ainsi, la loi de Y peut s’écrire avec une infinité de valeurs différentes des 
paramètres (u, œi), on ne peut donc pas identifier cette loi à un unique vecteur de 
paramètres. C’est en ce sens qu’on dit que le modèle est non identifiable. L’iden- 
tifiabilité est nécessaire en statistique paramétrique. En effet, avant de chercher 
de bons estimateurs pour des paramètres, il est nécessaire que les paramètres que 
l’on cherche à estimer soient définis de façon unique. 


Identifiabilité et contraintes 


Afin de pallier les problèmes d’identifiabilité, la méthode la plus classique consiste 
à se donner des contraintes sur les paramètres. Pour d’autres approches le lec- 
teur pourra se reporter au paragraphe 6.6. On considère le modèle 6.7. Pour ré- 
soudre les problèmes d’identifiabilité évoqués ci-dessus, nous proposons ici d’uti- 
liser des contraintes linéaires de la forme re a;a; = 0 où on rappelle que 7 
désigne le nombre de valeurs possibles de la variable explicative qualitative et où 


les aj,j = 1,...,1 sont des réels à spécifier. On peut déjà remarquer qu’avec la 
contrainte linéaire, nous aurons besoin d’estimer uniquement J — 1 paramètres 
parmi (a1,...,a). Le dernier paramètre se déduira de la contrainte. 


Ces contraintes linéaires sont appelées contraintes identifiantes et voici les plus 
classiques en notation ANOVA : 
— choisir un des a; = 0, la cellule à sert de cellule de référence (c’est ce que R 
fait généralement par défaut) ; 
— choisir }> n;a; = 0, la contrainte d’orthogonalité. Lorsque le plan est équilibré 
(les n; sont tous égaux), cette contrainte devient Sa; = 0; 
— choisir ` a; = 0, contrainte parfois utilisée par certains logiciels. Cette contrainte 
représente l’écart au coefficient constant u. Remarquons toutefois qu’à l’image 


134 Régression avec R 


de la régression simple, le coefficient constant u n’est en général pas estimé par 
la moyenne empirique générale y sauf si le plan est équilibré. 
Une autre contrainte, qui n’appartient pas a la famille des contraintes linéaires 
présentée ci-dessus, consiste à choisir 4 = 0 : on supprime la constante u du 
modèle et il nous faut alors estimer un paramètre par niveau du facteur (voir 
modèle 6.9 ci-dessous). 


6.3.3 Interprétation des contraintes 


Il est intéressant de visualiser ces différentes modélisations sur un graphique (fig. 6.9). 
Pour ce faire, nous considérons un facteur admettant deux modalités. Nous avons 
donc le modèle d’ANOVA suivant 


Yij = H + Qi + Eij. 


Ce modèle étant non-identifiable, nous pouvons réécrire ce modèle en remplaçant 
H + &ı par M1 et u + ag par m2: 


Yij = Mi + Eij. (6.9) 
Les contraintes identifiantes sont représentées graphiquement dans la figure 6.9. 


EY EY ð EY 


mı L-— P= bray 


HT a2 


H 
A1 Ao A, À A1 A2 
Fig. 6.9 — Modélisations selon les contraintes sur les paramètres. 


La premier graphique à gauche représente les espérances de Y pour chaque niveau 
du facteur (ou autrement dit dans chaque cellule), espérances notées m1 et M2, ce 
qui correspond à u = 0. Le deuxième graphique représente la contrainte }>; a; = 0. 
Rappelons que si le plan est équilibré, cette contrainte revient à 7, n;a; = 0. Ici y 
représente la « moyenne générale » et les a sont les effets différentiels. Le troisieme 
graphique représente la contrainte a; = 0, une cellule (i.e. un niveau du facteur) 
est prise comme cellule de référence. 


6.3.4 Estimation des paramètres 


La proposition suivante présente les estimateurs des moindres carrés des para- 
mètres du modèle d’analyse de variance à un facteur en fonction de différents 
types de contraintes. 
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Proposition 6.2 
Soit le modèle d’analyse de la variance à un facteur 


Yij = H + Qi + Eij. (6.10) 


1. Sous la contrainte u = 0, qui correspond à yij = Qi + Eij, les estimateurs des 
moindres carrés des paramètres inconnus sont : 


ee lig 
Qi = Yi, avec i= — > vi. 


Les à; correspondent à la moyenne de la cellule. 
2. Sous la contrainte a, = 0, qui correspond à Yij = u + Qi + €4;, les estimateurs 
des moindres carrés des paramètres inconnus sont : 

h=y et = Yi — y. 


La première cellule sert de référence. Le coefficient ji est donc égal à la moyenne 
empirique de la cellule de référence, les à; correspondent à l'effet différentiel entre 
la moyenne de la cellule à et la moyenne de la cellule de référence. 


3. Sous la contrainte X` nia; = 0, qui correspond à yij = H + Qi +e;;, les estima- 
teurs des moindres carrés des paramètres inconnus sont : 


=F, @=H-G e J=) D vi. 


L’estimateur de la constante, noté à, est donc la moyenne générale. Les à; cor- 
respondent à l’effet différentiel entre la moyenne de la cellule i et la moyenne 
générale. 


4. Sous la contrainte X` a; = 0, qui correspond à yi; = p+ai+e;;, les estimateurs 
des moindres carrés des paramètres inconnus sont : 


Les à; correspondent à l’effet différentiel entre la moyenne empirique de la cellule 
i et la moyenne des moyennes empiriques. Lorsque le plan est déséquilibré, les a; 
sont toujours les écarts à u, cependant ce dernier n’est pas estimé par la moyenne 
générale empirique, mais par la moyenne des moyennes empiriques. 


Dans tous les cas, o? est estimé par : 


I i = 
2 = ae CT =a 


7 n—IT 


La preuve est a faire en exercice (voir exercice 6.3). 
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6.3.5 Hypothèse gaussienne et test d’influence du facteur 


Afin d’établir des intervalles de confiance ou des procédures de test pour les diffé- 
rents paramètres, nous introduisons à nouveau l’hypothèse de normalité des erreurs 
e, notée H3 : € ~ N(0,07). 

Un des principaux objectifs de l’analyse de la variance est de savoir si le facteur 
possède une influence sur la variable à expliquer. Dire que le facteur n’a pas d’in- 
fluence signifie que la loi de Y est la même pour toutes les valeurs du facteur. Dans 
le modèle d’analyse de variance, cela revient à dire que toutes les valeurs a; sont 
identiques. Les hypothèses du test seront alors : 


Ho : a] =a2=--:=a; contre Hi: (4,5) tel que a; Æ a). 
Remarquons que si l’on choisit une contrainte linéaire sur les a; alors l’hypothèse 
Ho est équivalente à Ho : ay = ag = --: = ay = 0. Le modèle sous Ho peut s’écrire 
encore sous la forme suivante yj; = H + €; avec E€ij  N(0,0$). Nous sommes en 
présence d’un test entre deux modèles dont l’un est un cas particulier de l’autre 
(voir section 5.5.2, p. 98). La statistique de test vaut donc (Théorème 5.2 p. 100) 


_ lÊ- fol? /Q - 1) 
IY — ¥|]?/(n — 1) 


où Yo la projection orthogonale de Y sur la constante 1. Rappelons, méme si la 
valeur de of n’est pas utile pour le test, que sous Ho les estimateurs sont 


I Tū 
fag e = DD wa 


i=1 j=1 


Les termes de la statistique de test s’écrivent alors 


I 

I¥-Yoll? = $ n-a, (6.11) 
i=1 
I ni 

IP = $ $ us - x). (6.12) 
i=1 j=l 


Pour tester l’influence de la variable explicative, nous avons le théorème suivant : 
Théorème 6.1 

Soit le modèle d'analyse de la variance à 1 facteur (6.10) muni d’une contrainte 
linéaire sur les a; (a, = 0 ou Sonja; = 0 ou Sa; = 0). Notons l'hypothèse 
nulle (modèle restreint) Ho : a1 = ag +++ = ay = Q qui correspond au modèle 
Yij = U+e;,; et Vhypothése alternative (modèle complet) Hı : (à, j) tel que ai £ a; 
qui correspond au modèle complet yi; = + Qi + Es. 

Pour tester ces deux hypothéses nous utilisons la statistique de test ci-dessous qui 
possède comme loi sous Ho : 


Din- nI 
EL: 12 1 (Vij — Hi)? f-1 


Fr int: 
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L'hypothèse Ho sera rejetée en faveur de Hı au niveau a si l’observation de la 
statistique F est supérieure à fr—1n—1(1—@) et nous conclurons alors à l'effet du 
facteur explicatif. 


La preuve de ce théorème se fait facilement. Il suffit d’appliquer le théorème 5.2 
p. 100 avec l'écriture des normes données en (6.11) et (6.12). Ces résultats sont en 
général résumés dans un tableau dit tableau d’analyse de la variance. 


variation ddl SC CM valeur du F Pr(> F) 
x à SCA CMA 
_ A = || —Yoll? MA = 
facteur I-1 SC | oll C =i CMR, 
résiduelle n—1 SCR = ||Y -Ŷ]|? CMR = a 


Tableau 6.4 — Tableau d’analyse de la variance. 


La premiére colonne indique la source de la variation, la seconde le degré de liberté 
associé à chaque effet. La somme des carrées (SCR) est rappelée dans le tableau 
ainsi que le carré moyen (CM) qui par définition est la SCR divisée par le ddl. 
Conclusion 
— En général, lors d’une analyse de la variance, nous nous intéressons a vérifier 
si le facteur a un effet sur Y. Nous répondons à cette question en testant légalité 
des paramètres associés aux modalités du facteur (ce qui suppose l’hypothèse 
de normalité). Le tableau d'analyse de variance permet d’effectuer le test et de 
conclure. 
— Il faut représenter les résidus estimés afin de vérifier les hypothèses, notam- 
ment la normalité des erreurs. Une attention particulière sera portée à l'égalité 
des variances dans les cellules. Les tests F utilisés sont relativement robustes à la 
non normalité dans le cas où la distribution est unimodale et peu dissymétrique. 
— Une investigation plus fine peut être ensuite entreprise en testant des hypo- 
thèses particulières comme la nullité de certains niveaux du facteur. Bien évidem- 
ment, après avoir choisi une contrainte identifiante, nous pouvons nous intéresser 
aux coefficients eux-mêmes en conservant à l’esprit que le choix de la contrainte 
a une influence sur la valeur des estimateurs. 


6.3.6 Exemple : la concentration en ozone 

Nous reprenons l'exemple introduction où nous souhaitons expliquer la concentra- 

tion en ozone par la variable vent à 4 modalités à l’aide du modèle d'ANOVA 
Yi = H+ Qi + Ei, t=l,...,nj, j=1,...,4. 

Nous mettons en œuvre sur R les différentes contraintes d’identifiabilité que nous 

venons de présenter. 


1. u= 0. Pour obtenir cette contrainte, il suffit de spécifier au logiciel un modèle 
sans intercept 
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| > modi <- 1m(03-vent-1,data=ozone) 


Si nous souhaitons quantifier les effets des modalités, nous examinons les coeffi- 
cients. 


> summary (mod1) 


| 

| 

“ Coefficients: 

| Estimate Std. Error t value Pr(>|t|l) 
ventEST 103.850 4.963 20.92 < 2e-16 **x 
ventNORD 78.289 6.618 11.83 1.49e-15 xxx 
ventOUEST 71.578 4.680 15.30 < 2e-16 xxx 


| ventSUD 94.343 7.504 12.57 < 2e-16 *** 


Nous obtenons bien comme estimateur de chaque paramètre la moyenne empirique 
de la teneur en 03 dans chaque groupe. Il faut faire attention au listing lorsque 
la constante n’est pas dans le modèle, ainsi pour le calcul du R? le logiciel utilise 
la formule sans constante. En général, lors d’une analyse de la variance, nous 
ne sommes pas intéressés par le test admettant comme hypothèse Hp : a; = 0 
et donc les dernières colonnes du listing ne sont pas d’un grand intérêt. Nous 
sommes intéressés par la question suivante : y a-t-il une influence du vent sur la 
concentration en 03 ? Pour répondre à cette question, R propose la fonction anova, 
que nous avons déjà utilisée dans la section précédente, et qui permet de tester des 
modèles emboîtés. Si cette fonction est utilisée avec un seul modèle, il faut que la 
constante soit dans le modèle. Quand la constante ne fait pas partie du modèle, 
le test effectué n’a pas trop de sens puisque l’on effectue un test entre le modèle à 
un facteur et le modèle y;; = 0+ e;;. Ainsi dans l’exemple précédent nous avons : 


> anova(mod1) 
| Analysis of Variance Table 
Response: 03 

Df Sum Sq Mean Sq F value Pr (>F) 
vent 4 382244 95561 242.44 < 2.2e-16 *** 
Residuals 46 18131 394 


Pour savoir s’il y a un effet vent dans le cas de l’analyse à un facteur, il faut utiliser 
les autres contraintes comme nous allons le voir. 


2. a, = 0. Le logiciel R utilise par défaut la contrainte a, = 0 appelée contraste 
« treatment ». Cela revient dans notre cas a prendre la cellule EST comme cellule 
de référence (la premiére par ordre alphabétique). La commande pour effectuer 
Vanalyse est : 


| > mod2 <- 1m(03 ~ vent, data = ozone) 


Pour répondre à la question sur l’influence du vent sur la concentration, nous 
analysons le tableau d’analyse de la variance donné par : 
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| > anova(mod2) 

“ Analysis of Variance Table 
| Response: 03 

| Df Sum Sq Mean Sq F value Pr (>F) 

| vent 3 9859.8 3286.6 8.3383 0.0001556 *** 

| Residuals 46 18131.4 394.2 

L’hypothése Ho est rejetée. En conclusion, il existe un effet vent. Si nous nous inté- 
ressons aux coefficients, ceux-ci sont différents du modèle mod1 puisque nous avons 
changé la formulation du modèle. Examinons-les grâce à la commande suivante 


> summary (mod2) 
Coefficients: 

| Estimate Std. Error t value Pr(>|t|) 
(Intercept) 103.850 4.963 20.923 < 2e-16 *** 
ventNORD -25.561 8.272 -3.090 0.00339 ** 
ventOUEST =). iP 6.821 -4.731 2.16e-05 **x 
ventSUD -9.507 8.997 -1.057 0.29616 


L’estimateur de u, noté ici Intercept, est la moyenne de la concentration en 03 
pour le vent d’EST. Les autres valeurs obtenues correspondent aux écarts entre 
la moyenne de la concentration en 03 de la cellule pour le vent considéré et la 
moyenne de la concentration en 03 pour le vent d’EST (cellule de référence). 


Les deux colonnes du résumé ci-dessus correspondant au test de nullité d’un pa- 
ramètre (t value et Pr(>|t|)) ont un sens pour les 3 dernières lignes du listing. 
Le test correspond a la question suivante : y a-t-il une ressemblance entre le vent 
de la cellule de référence (EST) et le vent considéré. Selon ces tests, le vent du SUD 
n’est pas différent de celui de PEST, au contraire des vents du NORD et d’OUEST. 


Remarque 
Nous pouvons utiliser le contraste « treatment », utilisé par défaut en écrivant : 


Si nous voulons choisir une cellule témoin spécifique, nous l’indiquons de la manière 
suivante : 


> 1m(03 ~ C(vent ,treatment), data = ozone) 


| > 1m(03 ~ C(vent,base=2), data = ozone) 


La seconde modalité est choisie comme modalité de référence. Le numéro des 


modalités correspond a celui des coordonnées du vecteur suivant : 
levels(ozone[,"vent"]). 


3. Sonja; = 0. Cette contrainte n’est pas préprogrammée dans R, il faut définir 
une matrice qui servira de contraste. Cette matrice appelée contraste correspond 
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> II <- length(levels(ozone$vent) ) 

> nl <- table(ozone$vent) 

> contraste<-matrix(rbind(diag(II-1), 
-nI[-II]/nI[II]),II,II-1) 


Et le modèle est donné par l’expression suivante 


> mod3 <- 1m(03 ~ C(vent,contraste), data = ozone) 
Nous retrouvons le même tableau d’analyse de la variance que pour mod2 : 


> anova(mod3) 
Analysis of Variance Table 
Response: 03 

Df Sum Sq Mean Sq F value Pr (>F) 
vent 3 9859.8 3286.6 8.3383 0.0001556 *** 
Residuals 46 18131.4 394.2 


En effet, méme si les contraintes changent, les projections Y et Yo restent uniques 
et le test F est identique . L’effet vent semble significatif. Si nous nous intéressons 
maintenant aux coefficients, nous avons : 


> summary (mod3) 
Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 86.300 2.808 30.737 < 2e-16 *** 
C(vent, CONTRASTE)1 17.550 4.093 4.288 9.15e-05 *** 
C(vent, CONTRASTE)2 -8.011 5.993 -1.337 0.187858 
C(vent, CONTRASTE)3 -14.722 3.744 -3.933 0.000281 **x 


Nous retrouvons que à est bien la moyenne de la concentration en 03. 


4. Sa; = 0. Cette contrainte est implémentée sous R : 


> mod4 <- 1m(03 ~ C(vent,sum), data = ozone) 


Et à nouveau nous retrouvons le même tableau d’analyse de la variance. 


> anova(mod4) 
Analysis of Variance Table 
Response: 03 


Df Sum Sq Mean Sq F value Pr (>F) 
vent 3 9859.8 3286.6 8.3383 0.0001556 *x«x 
Residuals 46 18131.4 394.2 
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L’effet vent est significatif. Si nous nous intéressons maintenant aux coefficients, 
nous avons : 


> summary (mod4) 


Coefficients: 

Estimate Std. Error t value Pr(>|t|l) 
(Intercept) 87.015 3.027 28.743 < 2e-16 *** 
C(vent, sum)1 16.835 4.635 3.632 0.000705 *** 
C(vent, sum)2 -8.726 5.573 -1.566 0.124284 
C(vent, sum)3 -15.437 4.485 -3.442 0.001240 *x 


Intercept correspond à la moyenne des concentrations moyennes en 03 pour chaque 
vent. 


Enfin il est utile d’analyser les résidus afin de constater si l’hypothèse d’homoscé- 
dasticité des résidus est bien vérifiée. Les commandes suivantes permettent d’ob- 
tenir des représentations différentes des résidus. 


> resid2 <- resid(mod2) 
> plot(resid2 ~ vent, data=ozone, ylab="residus") 
> plot(resid2 ~ jitter(fitted(mod2)) ,xlab="ychap",ylab="residus") 
> xyplot(resid2 ~ I(1:50)|vent, data=ozone, 
xlab="index", ylab="residus") 


Nous pouvons constater que (figure 6.10), malgré le faible nombre d’individus par 
cellule, les variances semblent voisines d’une cellule à l’autre. 
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Fig. 6.10 — Trois représentations des résidus. 


Nous terminons cette section par une dernière approche de l’analyse de la variance 
basée sur une décomposition directe de la variance. 
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6.3.7 Une décomposition directe de la variance 


Une introduction très classique de l’analyse de variance consiste à décomposer la 
variance totale en somme de différentes parties. Rappelons les notations utilisées. 
— La variable qualitative explicative admet J modalités (ou niveaux) et le nombre 
d'individus par niveau vaut n;. Le nombre total d'individus est n = a Ni. 
— Yi; : observation de la v.a. correspondant à l'individu j du niveau 7, où 7 = 
1,...,1etj=1,...,n. 
— La moyenne empirique par niveau et la moyenne générale sont données par 
les relations suivantes : 


7 LE | ; 
Yi = Yi. = ,— 5 Vij» moyenne par niveau 2. 
Ni £ 
j=l 
1 I Ni 1 I 
y= y= DD w = — nu. 
i=1 j=1 i=1 


L'approche consiste à décomposer la variance totale 
1 Tong 
—\2 
7 5 X (i =9) 
i=1 j=i 


en somme de deux termes. Le premier est une variance intra due au hasard, appelée 
aussi variance intrastrate (ou résiduelle) 


1 I Mi 
z DDOE 
i=1 j=1 


et le second une variance inter due au facteur, appelée aussi variance interstrate 
(ou des écarts) 


I 
1 = 32 
nai — 7) Ê 


La variance totale étant fixée par les observations, on espère que la partie variance 
inter soit la plus grande possible, ce qui signifie que les écarts y; — y sont grands, 
donc qu'entre niveaux du facteur l'écart est grand. Plus la variance inter est grande, 
plus le facteur a de l’importance. On retrouve cette idée dans le test F proposé 
dans le tableau 6.4 (p. 137) qui est le rapport des variance inter sur la variance 
résiduelle ramené à leur degré de liberté respectif. 


6.4 Analyse de la variance à 2 facteurs 


6.4.1 Introduction 


Nous voulons maintenant modéliser la concentration en ozone par le vent (4 mo- 
dalités) et la nébulosité, que nous avons scindée en 2 modalités (soleil-nuageux). 
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Nous avons mesuré 2 observations par niveau (tableau 6.5). 


NORD SUD EST QUEST 
89.6 1342 139.0 87.4 


SOLEIL 
106.6 121.8 126.2 84.0 
81.2 68.4 63.6 88.0 


NUAGEUX 


78.2 113.8 79.0 41.8 
Tableau 6.5 — Concentration en ozone. 


En général, la première variable explicative ou premier facteur est celui indiqué 
en ligne (ici Nébulosité) admettant I modalités, la seconde variable explicative 
ou second facteur est celui indiqué en colonne (ici Vent) admettant J modalités. 
Les individus ne sont plus repérés par un couple (i,j) mais maintenant par un 
triplet (i, j, k), représentant le k° individu admettant la modalité i de la première 
variable explicative et la modalité 7 de la seconde variable explicative. Le nombre 
Nij correspond au nombre d’observations ayant la modalité 7 du premier facteur 
et j du second. Nous avons la définition suivante : 


Définition 6.1 

SiV(i,j), ni; > 1, le plan est dit complet. 
Si 3(i, j) : nij = 0, le plan est dit incomplet. 
SiV(i,j), nij =r, le plan est dit équilibré. 


6.4.2 Modélisation du problème 


Les deux variables explicatives Vent et Nébulosité ne sont pas utilisables direc- 
tement et nous allons donc travailler avec leur version que l’on notera À pour la 
nébulosité et B pour le vent. Le modèle le plus naturel est 


Yijk = H + on Ay + a2 A0 + b1Bjı + B2Bj2 + B3Bj3 + BaBja + Eijk- 


Afin d'écrire ce modèle sous forme matricielle, considérons le vecteur Y € R” 
des observations yijķk rangées dans l’ordre lexicographique de leurs indices. Nous 
notons ĉj € IR” le vecteur dont toutes les coordonnées sont nulles sauf celles 
repérées par les indices ijk pour k = 1,...,n;;, qui valent 1. Ce vecteur est le 
vecteur d'appartenance à la cellule (i,j). Les vecteurs €;; sont des vecteurs de R” 
orthogonaux entre eux. Nous définissons 


=) ej; et HR. ei; 
i 


J 


où €;. est le vecteur d'appartenance à la modalité 7 du premier facteur et € ; est le 
vecteur d'appartenance à la modalité j du second facteur. Le modèle s'écrit alors 
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sous la forme suivante 
Y = pl + aêr. + a2, + D1E 1 + B2ë 2 + b323 + Baëa + €. 
ou encore avec les notations précédentes 
Y = ul + Aa + Beb +e, (6.13) 


avec A, = (1,62) et Be = (€1,€2,€3,€4). Si nous additionnons toutes les 
colonnes de A, (idem pour Be), nous obtenons le vecteur 1. La matrice (1, Ac, Be) 
n’est donc pas de plein rang et l’hypothése Hı n’est pas vérifiée. Nous ne pouvons 
donc appliquer directement les résultats des trois chapitres précédents au modèle 
(6.13). Nous retombons sur les problémes d’identifiabilité évoqués dans la section 
précédente et il faudra 4 nouveau imposer des contraintes. 

En régression multiple, nous avons p variables explicatives X1,...,X, et nous 
cherchons le "meilleur” modèle à partir de ces p variables. Nous pouvons bien évi- 
demment considérer des transformations de ces variables ou inclure des interactions 
(par exemple une nouvelle variable serait X, x X2), comme cela a été indiqué au 
chapitre 2. En analyse de la variance comme en analyse de la covariance, nous com- 
mencons toujours par traiter le modéle avec interaction. Le produit Nébulosité 
avec Vent est impossible a effectuer et nous codons ce produit via une matrice 
Ce dont la première colonne indique l’appartenance au croisement SOLEIL-NORD, 
la seconde colonne au croisement SOLEIL-SUD et ainsi de suite. Nous obtenons le 
modèle suivant : 


Yijk = H + Qi + Bj + Vig + Eijk, (6.14) 


avec un effet moyen général u, un effet différentiel a;, i = 1,2 pour la nébulosité, 
un effet différentiel 6;,7 = 1,...,4 pour le vent et un terme d’interaction yij. En 
utilisant les notations précédentes, lécriture du modèle sous forme matricielle est : 


Y = ul + Aa + BB + Cey +e, 


où Ce = (€11, E12, E13, Ela, €01, E22, E23, E24). A titre d’exemple, écrivons les matrices 
obtenues avec le jeu de données présenté : 


yi 1 1 0 1 00 O 1 00 0 0 0 0 0 E111 
Y112 1 1 0 1 0 0 0 1 0 0 00 00 0 £112 
y121 1 1 0 0 1 0 0 O 1 0 0 0 0 0 0 £121 
Y122 1 1 0 0 1 0 0 O 1 00 0 0 0 0 Pa £122 
Y131 1 1 0 0 0 1 0 0 01 00 0 0 0 : £131 
Y132 1 1 0 0 0 1 0 0 O 1 0 0 0 0 0 2 £132 
Yiai 1 1 0 0 0 O 1 0 00 1 0 0 0 0 fs E141 
ya2 | _ | 1 1 0 0 0 0 1 0 0 0 10000 7 E142 
yar | | 1 0 1 1 0 0 0 0 0 0 O 1 0 0 0 Yar | E| es 
Y212 1 0 1 1 0 0 0 0 0 0 O 1 0 0 0 412 €212 
Y221 1 0 1 0 1 0 0 00 0 O O 1 0 0 Tis E221 
Y222 1 0 1 0 1 0 0 0 0 O O O 1 0 0 Tra E222 
Y231 1 0 1 0 O 1 0 0 0 0 0 0 0 1 0 “eal €231 
y232 1 0 1 0 O 1 0 0 0 O 0 00 1 0 122 E232 
Y241 1 0 1 0 0 O 1 0 0 0 0 0 0 0 1 23 E241 
Y242 1 0 1 0 0 O 1 0 0 O 00 00 1 724 E242 
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Remarquons que les interactions de variables continues, construites avec le produit 
des variables, et l’interaction de 2 facteurs, représentée ici par C, suivent la même 
logique de construction. En effet les colonnes de Ce sont tout simplement le résultat 
des produits 2 à 2 des colonnes de A, par celles de Be. 

A nouveau la matrice (1, A, B,C) n’est pas de plein rang et l'hypothèse Hı n’est 
pas vérifiée. La matrice X = (1, A, B,C) de taille n x (1 + I+ J + IJ) est de 
rang IJ. Il faut imposer donc 1 + I + J contraintes linéairement indépendantes 
afin qu’elle devienne inversible. Les contraintes classiques sont : 


1. Contrainte de type analyse par cellule 


u = 0, Vi a; = 0, Vi B;= 0. 


2. Contrainte de type cellule de référence 


a, = 0, By =0, Vi Ya =, Vi 15 = 9. 


3. Contrainte de type somme 


Daso Easo vi Drws% vi Sw =0. 
i j j : 


Remarque 

Pour les contraintes de type analyse par cellule ou cellule de référence, nous avons 
bien 1+ 1+ 1+ (J — 1) contraintes. En effet, la dernière contrainte 7; = 0 pour 
j =1,---,J pourrait s'écrire y,; = 0 pour j variant de 2 à J. Le cas correspondant 
à j = 1, soit y11, est déjà donné dans la contrainte précédente. 

Pour la contrainte de type somme, c’est plus difficile à voir. Montrons que les 
I + J contraintes Vi >, Vj = 0 et Vj, ij = 0 ne sont pas indépendantes. En 
effet quand IJ + J — 1 contraintes sont vérifiées, la dernière restante l’est aussi. 


Cii C12 eee C1J-1 J = 0 

C21 C22 :.. C2J-1 C2J = 0 

Cm CI2 +. CIJ-1 CIJ = 0 
=0 =0 =0 c 


Posons que J + J — 1 contraintes sont vérifiées : J en ligne et J — 1 en colonnes 
(voir ci-dessus). La dernière somme c vaut 0 (voir ci-dessus). 


6.4.3 Estimation des paramètres 


Nous n’aborderons ici que la contrainte de type analyse par cellule et la contrainte 
de type somme et nous considérerons uniquement les plans équilibrés avec r ob- 
servations par cellule. 
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Considérons les notations suivantes : 


ie 1 
Yijk» Ji = D vas J= D vie. 


J or 
=i k=1 i=l k=l i,j,k 


1 1 
Yij = = D Vije Yi. = Jr 
k=1 4 


Proposition 6.3 
Soit le modèle d’analyse de la variance à 2 facteurs suivant : 


Yigk = H + Qi + By + Vig + Eijk- 


1. Sous les contraintes u = 0, a; = 0 pour tout i = 1,...,1 et B; = 0 pour 
tout j = 1,..., J, qui correspond au modèle Yijk = Vij + Eijk, les estimateurs des 
moindres carrés des paramètres inconnus sont 


Vig = Yi 
Les 43 correspondent aux moyennes par cellule. 


2. Sous les contraintes 3; oi = 0, 0); 6; = 0, Vi D, = 0 et Yj Div = 0, 


les estimateurs des moindres carrés des paramètres inconnus sont 


Lt y 
âi = Yi. — Y 
Ê; = ÿ5-5 
Vig = Yij— Yi. — V5 +Y. 


Dans tous les cas, la variance résiduelle o? est estimée par 


I J r x 
22 rare = Di (Yijk — big)? 
0" = ; 
n— IJ 


La preuve est à faire en exercice (voir exercices 6.4 et 6.5). 


6.4.4 Analyse graphique de l'interaction 


Une des principales questions de ’ ANOVA à deux facteurs est de savoir si les fac- 
teurs ont une influence sur la variable à expliquer. La première analyse à effectuer 
consiste à étudier l’interaction. En effet, si interaction a un sens, alors les facteurs 
A et B influent sur la variable à expliquer car l'interaction est le produit de A avec 
B. Considérons le modèle complet 


Yijk = H+ Qi+t pj + Yi + Eijk, 
que nous pouvons réécrire sous une forme simplifiée 


Yijk = Mij + Eijk- 
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Considérons maintenant le modèle sans interaction 
Yijk = H + Qi + bj + Eijk- 


La première étape consiste à tester la significativité de l'interaction. Cela revient à 
tester le modèle avec interaction contre le modèle sans l'interaction. Avant d’abor- 
der les tests, nous étudions une approche graphique de l'interaction. 
Fixons le facteur A au niveau i. Pour ce niveau donné, nous avons J cellules, cha- 
cune correspondant à un niveau du facteur B. Prenons l'espérance dans chacune 
de ces cellules, nous obtenons sous l’hypothèse que l'interaction n’est pas signifi- 
cative : y+ &i + bj, 1 < j < J. En traçant en abscisse le numéro j de la cellule et 
en ordonnée son espérance, nous obtenons une ligne brisée appelée profil. 
Passons au niveau @;i+ı du facteur A. Nous pouvons tracer la même ligne brisée 
et ce profil sera, sous l’hypothèse de non-interaction : 4 + aj+1 + B;, soit le profil 
précédent translaté verticalement de &i+ı — Qi. 
Une absence d’interaction se traduit donc par des profils parallèles. Un moyen de 
visualiser l'interaction est donc de tracer les profils estimés sous le modèle complet 
(avec interaction) et de regarder si les lignes brisées sont parallèles. Sur l’exemple 
de l’ozone, nous obtenons grâce aux ordres suivants : 

> par(mfrow=c(1,2)) 

> with(ozone, interaction.plot(vent, nebulosite, 03, col=1:2)) 

> with(ozone, interaction.plot(nebulosite, vent, 03, col=1:4)) 


les profils suivants : 


NEBU 
= | — SOLEIL = - 
NUAGE 
on S4 84 
o — © — 
~ “4 
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go 5 
vo v 
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21`, 8 - 
XN 7 
My # 
eo: Lie 7: So 
i ~ Le i 
EST NORD OUEST SUD NUAGE SOLEIL 
vent NEBU 


Fig. 6.11 — Examen graphique de l'interaction entre nébulosité et vent. 


Les profils ne sont pas exactement parallèles mais quasiment. Nous constatons 
que les modalités EST-SOLEIL et SUD-SOLEIL sont un peu éloignées de la position 
qu’elles auraient dû occuper si les profils étaient exactement parallèles. Le vent de 
SUD associé à un temps ensoleillé semble très légèrement plus propice à un fort 
pic d'ozone. Ces graphiques suggèrent une très légère interaction entre Vent et 
Nébulosité, principalement entre SUD et SOLEIL. Mais est-ce que cette différence 
locale est suffisante par rapport aux différences entre individus dues à la variabilité 
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£? Afin de répondre à cette question il est nécessaire d’utiliser un test statistique 
et de supposer l’hypothèse gaussienne vérifiée. 


6.4.5 Hypothèse gaussienne et test de l’interaction 


Grâce à l’hypothèse gaussienne sur les erreurs €, nous pouvons utiliser les tests 
d’hypothèses vus au chapitre 5. Rappelons encore que notre principal objectif est 
de savoir si les facteurs influent sur la variable à expliquer. 

Nous préconisons de tester en premier la significativité de l’interaction. En effet, 
si l'interaction est significative, les 2 facteurs sont influents via leur interaction, il 
n’est donc pas nécessaire de tester leur influence respective. 

On se place dans le modèle avec interaction 


Yik = ++; + Yi; + Eijk 


dans lequel on souhaite tester 


(Ho)ap: Yii) Yi; =0 contre (Hiı)ag : ali, j) yz £0. 
Les modèles sous (Ho) 48 et (Hi) 4p peuvent s’écrire encore sous la forme suivante : 


Yijk = peta; +8;+eijx, modèle sous (Ho)ap 
Yijk = H+ai+ bj 


Jij + Eijk, modèle sous (Hj) az. 


Ce test, qui permet de connaître l'influence globale de l'interaction des facteurs, 
est tout simplement un test entre deux modèles dont l’un est un cas particulier de 
lautre (section 5.5.2, p. 98). Nous pouvons donc énoncer le théorème suivant. 


Théorème 6.2 

Soit un modèle d’analyse de la variance à 2 facteurs A et B. Notons l'hypothèse 
nulle (modèle restreint) (Ho)ar : (i,j) iz = 0, qui correspond au modèle 
Yijk = H+ Qi + Bj + Eijk, contre Vhypothése alternative (Hi) 48 : ali, j) Yiz FO 
qui correspond au modèle complet yijg = H + Qi + By + Vig + Eijk- Pour tester 
ces deux hypothèses, nous utilisons la statistique de test F ci-dessous qui possède 
comme loi sous (Ho) ap : 


IÈ - ll? /AJ-I-J+1) m 
=> x los IJ—-I-J+1,n-IJ- 
IY —¥|?/(n— IJ) 


Lorsque le plan est équilibré, la statistique de test s’écrit : 


p Palau Yj +Y)? n- IJ 5 
> = ~ FIJ-I-J4+1,n-IJ- 
we la tee da) ddl m 
L'hypothèse (Ho) az sera rejetée en faveur de (H1)AB au niveau a si l'observation 


de la statistique F est supérieure à frj-1-J+1,n-1J(l — a), et nous conclurons 
alors à l’effet des facteurs explicatifs. 
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La preuve de ce théorème se fait facilement. Il suffit d’appliquer le théorème 5.2 
p. 100 avec l'écriture des normes données en (6.11) et (6.12). Nous avons un premier 
modèle, ou modèle complet, 


Yijk = H + Qi + Bj + Jij + Eijk modèle (1) 
et obtenons les estimations suivantes : fi(1),--- ,Ÿ (1) et 62(1), le (1) précise que 
nous sommes dans le premier modèle. 


Si l'interaction est significative, nous conservons le modèle (1). Sinon, nous le 
rejetons au profit du modèle (2) 


Yijk = H+ Qi + Pj + Eijk modèle (2) 


dans lequel nous obtenons les estimations /i(2),--- , Y(2) et 67(2). 


L'étape suivante consiste à tester l’influence des facteurs A et/ou B et donc tenter 
de simplifier le modèle. Testons par exemple l'influence du facteur A. Nous avons 
déjà le modèle (2) qui prend en compte l’effet de A, ce qui sera donc l’hypothèse 
alternative (H,)4. En simplifiant ce modèle pour éliminer l'influence de A nous 
obtenons le modèle (3) qui sera ’hypothése nulle du test, (Ho), 


Yijk = LL + Bj + Eijr modèle (3) 


avec les estimations suivantes : /i(3),--- ,Ÿ (3) et 62(3). 
Pour tester l'influence du facteur A, nous cherchons à départager 2 modèles, le 
modèle (2) et le modèle (3) et nous avons la statistique de test 


_ IC) -Ÿ(G)NP/4 - 1) 


6? 


F 


om Pirate): 


où ddl(résiduclle) représente la dimension de l’espace dans lequel on projette Y pour 
obtenir l'estimation de o?. 


1. Si nous sommes dans la logique des tests entre modèles emboîtés, le premier 
modèle a été rejeté, nous travaillons donc avec les modèles (2) et (3), nous estimons 
alors g? par 6?(2). La statistique de test vaut 


__IP@-F@HP/-D | 
Iv -P@Ql?/m-r-74+p RH 


2. Bien que l’on ait rejeté le modèle complet avec interaction, certains auteurs et 
utilisateurs préconisent de conserver le modèle complet pour estimer g? en arguant 
de la précision de cet estimateur. Il est vrai que la SCR obtenue dans le modèle 
complet est plus petite que la SCR obtenue dans le modèle sans interaction, mais 
les degrés de liberté associés sont différents. Ainsi, dans le modèle complet, le ddl 
vaut n — IJ alors que dans le modèle sans interaction, le ddl vaut n — J — J +1. 
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La précision accrue de l’estimateur peut être vue comme une précaution envers la 
possibilité d’une interaction, même si on l’a rejetée par le test d’hypothése (Ho) AB 
contre (H;) 4. Dans ce cas, la statistique de test vaut 


IS) — Ÿ (82/4 - 1) 
ae Ÿ ~ F1 (nm 19): 
IY — Ê(1)||2/(n — IJ) (I-1),(n—1J) 


En pratique et de façon historique, les résultats d’une analyse de la variance sont 
présentés dans un tableau récapitulatif, appelé tableau d’analyse de la variance. 
Ce tableau est difficile 4 analyser lorsque le plan d’expérience n’est pas équilibré 
(i.e. même nombre de répétitions pour chaque niveau i et j des facteurs). Dans le 
cas d’un plan équilibré, les calculs sont simplifiés et les interprétations également. 
Nous renvoyons le lecteur à l’exercice 6.6. 


Conclusion 


Résumons donc la mise en œuvre d’une analyse de la variance à deux facteurs. Il 
est utile de commencer par examiner graphiquement l’interaction. Ensuite nous 
pouvons toujours supposer l'hypothèse gaussienne vérifiée et commencer par tester 
l'hypothèse d'interaction (Ho)4p. Comme le test dépend de projections qui sont 
uniques, il est inchangé quel que soit le type de contrainte utilisé. Ensuite, si 
l'interaction n’est pas significative, il est possible de tester les effets principaux 
(Ho)A et (Ho) et de conclure. Enfin l’analyse des résidus permet quant à elle de 
confirmer l’hypothèse d’homoscédasticité et l’hypothèse de normalité. 

Pour une présentation plus complète de l’analyse de la variance nous renvoyons le 
lecteur intéressé au livre de Scheffé (1959). De même un traitement complet des 
plans d’expérience peut être trouvé dans Droesbeke et al. (1997). 


6.4.6 Exemple : la concentration en ozone 


Afin de savoir si les variables Vent et Nébulosité ont un effet sur la concentra- 
tion d’ozone, nous allons utiliser une ANOVA à deux facteurs. N’ayant aucune 
autre connaissance a priori, tous les modèles incluant le vent sont possibles : avec 
interaction, sans interaction, sans effet du facteur Nébulosité. Il est conseillé de 
commencer par le modèle avec le plus d’interaction et ensuite d’essayer d’éliminer 
les interactions. Ainsi nous pouvons tester (Ho)aB, Yijk = Qi + bj + Eijk V(i,5,k) 
contre (H1)AB, Yijk = Qi + By + Jij + Eijk V(i, j, k). Ces deux modèles s’écrivent 
et se testent sous R de la façon suivante : 


| > modi <- 1m(03 ~ vent + nebulosite + vent:nebulosite, data=ozone)| 
> mod2 <- 1m(03 ~ vent + nebulosite, data = ozone) 
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> anova(mod2, modi) 

Analysis of Variance Table 

Model 1: 03 ~ vent + nebulosite 

Model 2: 03 ~ vent + nebulosite + vent:nebulosite 


Res.Df RSS Df Sum of Sq F Pr(>F) 
1 45 11730 
2 42 11246 3 483.62 0.602 0.6173 


L'hypothèse de non-interaction (Ho) ag est donc conservée. La différence constatée 
graphiquement (fig. 6.11) n’est pas suffisante pour repousser l’hypothèse de non 
interaction. 


Nous souhaitons savoir si la nébulosité possède un effet sur la concentration en 
ozone. Nous testons alors (Ho), Yijk = UH+QitEijk V(i, j, k) contre (H1)B, Yijr = 
pet a; + Bj + Eijk V(i, j, k). Nous allons donc utiliser la statistique Fg mais avec 
quel estimateur 6? ? Nous avons deux choix (voir p. 149) 


— Le premier consiste à utiliser |Y — à — à; — B;|?/(n — T — J +1), qui est 
l’estimateur classique de 6? dans un test entre modèles emboîtés. 

— Le second consiste à conserver l’estimateur de g? utilisé lors du test précédent 
(Ho) az (test d'existence d'interaction) où l’estimateur était : |Y — ÿ — à; — 8; — 
ijll?/(n — LJ). 


La première méthode consiste à dire, puisque le modèle sans interaction a été 
conservé, qu’il est donc « vrai » et on l’utilise pour estimer l'erreur. La seconde 
méthode consiste à dire, bien que le modèle à interaction ait été repoussé, il se 
peut qu’il subsiste une interaction même faible qui pourrait modifier l’estimation 
de o?. Afin d'éviter cette modification, la même estimation de ø? est conservée. 
Pour réaliser cela, nous introduisons un nouveau modèle sans effet nébulosité que 
nous testons ensuite selon la première procédure : 


> mod3 <- 1m(03 ~ vent, data = ozone) 
> anova(mod3, mod2) 

Model 1: 03 ~ vent 

Model 2: 03 ~ vent + nebulosite 


Res.Df RSS Df Sum of Sq F Pr (>F) 
1 46 18131 


2 45 11730 1 6401.5 24.558 1.066e-05 *** 


et nous repoussons (Ho)g, il existe un effet du vent et de la nébulosité. Si l’on 
utilise la première procédure, nous pouvons résumer l’ensemble des tests emboités 
réalisés jusqu'ici avec : 
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> anova(mod3, mod2, modi) 

Model 1: 03 ~ vent 

Model 2: 03 ~ vent + nebulosite 

Model 3: 03 ~ vent + nebulosite + vent:nebulosite 


Res.Df RSS Df Sum of Sq F Pr (>F) 
1 46 18131 
2 45 11730 1 6401.5 23.907 1.523e-05 *** 
3 42 11246 3 483.6 0.602 0.6173 


nous lisons encore une fois qu’au niveau de 5 % l'hypothèse (Ho) pg est rejetée (voir 
ligne 2). L’analyse des résidus ne donne rien de particulier ici et est donc omise. Si 
vous souhaitez toutefois retrouver le tableau 6.6, il suffit d’utiliser l’ordre suivant 


> anova(mod1) 


mais nous ne recommandons pas son usage ici puisque le plan n’est pas équilibré 
et l’ordre des facteurs influe sur la décomposition. 


6.5 Exercices 


Exercice 6.1 (Questions de cours) 

1) Vous faites une analyse de la variance à 1 facteur équilibrée, la variance de l'estimateur 
des MC est diagonale : 

A oui, toujours, 

B non, jamais, 

C peut-être, cela dépend des données de X. 
2) Lors d'une analyse de la variance à 2 facteurs, le modèle utilisé est Yijk = Mij + Eijk- 
Les paramètres estimés sont 7ñ:;, la région de confiance de deux paramètres est : 

A une ellipse dont les axes sont parallèles aux axes du repère, 

B une ellipse dont les axes peuvent ne pas être parallèles aux axes du repère, 

C un cercle. 
3) Lors d'une analyse de la variance à 2 facteurs, le modèle utilisé est yijk = mi; +Eijk et le 
plan équilibré. Les paramètres estimés sont frij, la région de confiance de deux paramètres 
est : 

A une ellipse dont les axes sont parallèles aux axes du repère, 

B une ellipse dont les axes peuvent ne pas être parallèles aux axes du repère, 

C un cercle. 
4) Vous souhaitez tester l'effet d'un facteur lors d'une analyse de la variance à 2 facteurs, 
l'interaction est positive 

A vous effectuez l'analyse à un facteur correspondant et concluez en conséquence, 

B vous ne faites rien car il y a un effet du facteur, 

C vous regardez dans le tableau de l'ANOVA la valeur de la p-value de l'effet désiré afin 

de conclure. 


Exercice 6.2 (Analyse de la covariance) 
Nous souhaitons expliquer une variable Y par une variable continue et une variable qualitative 
admettant J modalités. 

1) Donner la forme explicite des matrices X pour les 3 modélisations proposées. 
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2) Calculer ensuite l'estimateur des MC obtenu dans le modèle 6.1. 
3) Montrer que cet estimateur peut être obtenu en effectuant J régressions simples. 


Exercice 6.3 (fEstimateurs des MC en ANOVA à 1 facteur) 
Démontrer la proposition 6.2 p. 135. 


Exercice 6.4 (Estimateurs des MC en ANOVA à deux facteurs) 
Démontrer la proposition 6.3 p. 146 lorsque les contraintes sont de type analyse par cellule. 


Exercice 6.5 (ffEstimateurs des MC en ANOVA à deux facteurs suite) 
Démontrer la proposition 6.3 p. 146 lorsque les contraintes sont de type somme dans un plan 
équilibré. 


Exercice 6.6 (f Tableau d’ANOVA à 2 facteurs équilibrée) 
Considérons un plan équilibré et notons le vecteur Ÿ € R/7” des observations Yijk rangées 
dans l'ordre lexicographique de leurs indices (i facteur A et j facteur B) soit 


7 
t 
Y° = (Vins, Yira,---, Ylin, Yo11, Yo12,---, Ypqn)- 


Nous notons 6,4 de R” où n = I Jr le vecteur dont toutes coordonnées sont nulles sauf celle 
indicée par ijk et Zij le vecteur dont toutes les coordonnées sont nulles sauf celles repérées 
par les indices ijk pour k = 1,...,n, les coordonnées non nulles valant 1. On définit 


e := X ëy Èi. = dé; Èj Ye. 
ij j Jj 
Nous définissons les valeurs suivantes : 
1 1 1 1 
Y.. = 75 Ve Yi =) Yor Yj =p) Yor Yo. = D Yar 
ijk jk ik k 
Nous souhaitons estimer les paramètres du modèle suivant : 
Yijk = H+ ai + By + (aB)ij + Eijk- (6.15) 


Ce modèle est sur-paramétré, nous devons imposer des contraintes identifiantes. Nous souhai- 
tons travailler avec les contraintes suivantes Ÿ 7, ai = 0, we B; = 0, pour tout à DAC) = 


0 et pour tout j >:,(aB: = 0. Ces contraintes sont appelées contraintes d'orthogonalité. 
On définit les sous-espaces suivants : 


Eı:={ uë, u quelconque} Ex={ ai€j., 5 ai = 0} 


Es={S | bjé';, >» b; = 0} Ex={S | Cig Cig 5 Cij = 0 et 5 Cij = 0}. 
j ij i J 


J 


1) Montrez que le modèle de l'analyse de la variance s'écrit alors 
Y= pé+ 5 dé. + 5 BiĒj + N (aB) +E. 
i j ij 


2) Montrez que les sous-espaces E; sont deux à deux orthogonaux. On note alors 


L IL: ale 
E := E: Q £ Q Bs Q E. 
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3) Montrez que les dimensions de £1, E2, E3, E4 sont respectivement 1, 1—1, J—1, (1— 
1)(J — 1). 

4) On note Q, P, Pi, P2, Ps et Ps les projections orthogonales sur les sous-espaces E+, E, 
E1, E2, E3 et E4. Calculez 


P(Ÿ) P(Ÿ) P(Y) P(Y) Q) 


en fonction des Y., Yi., Yj., Yij.. 

5) Estimer les paramètres du modèle sous ces contraintes. 
6) En déduire l'équation de l'analyse de la variance. 

7) Montrez que 


IPO? | x (dim( Ei), || Pi (77)||”) 


o2 


où m est le vecteur des moyennes de va 

8) Déduisez de la question précédente que SC Ex, SCE», SCE (av) et SCR sont indépen- 
dantes. Donnez leur loi respective. 

9) Nous notons CM Eʻab) et CMR les carrés moyens de l'interaction et résiduel. Montrez que 
le rapport CM E(ab)/CMR suit une loi de Fisher décentrée dont vous donnerez les degrés 
de liberté et le décentrage. 

10) Vous pouvez donc maintenant analyser le tableau d'analyse de la variance donné ci- 
dessous. 


Variation ddl SC CM valeur du F Pr(> F) 
_ SCA CMa 

facteur A I-1 SCA CMa ue D CMR 

facteur B -1 Ms = 2 R 

acteur J SC CMs (J —1) CMR 


SCAB CMA3 
ro —1) CMR 


Interaction (I-1)(J-1) SCar CMaz = 


Résiduelle n-IJ SCR e = 
(n — (n—TJ) J) 


Tableau 6.6 — Tableau d’analyse de 7 variance. 


La première colonne indique la source de la variation, puis le degré de liberté associé à 
chaque effet. La somme des carrés (SCR) est donnée avant le carré moyen (CM), qui est 
par définition la SCR divisée par le ddl. Ainsi, dans le cas où les sous-espaces E1, E2, E3 
et E4 sont orthogonaux, ce tableau donne tous les tests indiqués précédemment, en utilisant 
l'estimation de o? donnée par le modèle avec interaction. 

— La statistique de test d'interaction, (Ho) ag contre (Hi) az, est CM18 / CMR. 

— La statistique de test d'influence du facteur A, (Ho)a contre (Hi)4 = (Ho)AB, est 

CM4 /CMR. 

— La statistique de test d'influence du facteur B, (Ho)s contre (Hı)s = (Ho)az, est 

CM / CMR. 
Ce tableau d'analyse de variance est donc une présentation synthétique des tests d'influence 
des différents facteurs et interaction. 


Variables qualitatives : ANCOVA et ANOVA 155 


6.6 Note: identifiabilité et contrastes 


Nous avons X = (1, Ac) où Ac, de taille n x I est de rang 1. La matrice X de taille n x p 
(p = I +1) n’est pas de plein rang mais de rang I et dim(S(X)) = J et non pas I +1. 
Rappelons que la matrice X peut étre vue comme la matrice dans les bases canoniques 
d’une application linéaire f de R?” dans R”. En identifiant X et f ainsi que les vecteurs 
de R? (et R”) à leurs coordonnées dans la base canonique de R?” (et R”), nous avons 


X : R> R” 
Br X(B) = XB. 


L’espace de départ IR? est l’espace des coefficients, l’espace d’arrivée IR” celui des va- 
riables. Ces espaces sont munis d’un produit scalaire, le produit scalaire euclidien. On 
peut décomposer chacun de ces 2 espaces en 2 espaces supplémentaires orthogonaux. 
Nous cherchons un vecteur de coefficients, élément de IR? qui se décompose en : 


R?” = ker(X) @ker(X)*, 


avec ker(X) = {8 € IR? : XG = 0} le noyau de X. Donc pour un coefficient quelconque 
y € R?, nous pouvons l'écrire comme 


à = A tt, Je ker(X) et ye ker(X)~. 


Si on prend maintenant un coefficient B qui minimise les MC, nous avons 
B = B+ 6", avec XB = XÂ + xB = xf". 


En ajoutant à BI n’importe quel élément B' de ker(X), on a toujours Bt + 6* solution 
des MC. Il n’y a pas unicité. Si l’on souhaite un unique vecteur de coefficient solution des 
MC, il semble naturel de poser que 81 = 0 et de garder BI € ker(X j= comme solution 
du problème. Nous cherchons donc l'élément (unique) B* € ker(X)+ solution des MC. 


Solution de norme minimum 


Montrons que le vecteur Bi, qui est le vecteur solution du probléme et qui est élément 
de ker(X)+, est le vecteur solution des MC qui est de norme minimum. 

Soit un vecteur quelconque B solution des MC, il se décompose en 2 parties orthogonales, 
et du fait de cette orthogonalité nous avons la décomposition suivante 


WI? = NA + BP = AT? + AIP > IFIP. 


Nous avons donc que Bt est la solution des MC de norme minimum. 

Une première approche donne directement ĝt = (X'X)*+X’Y, où (X/X)* est l’inverse 
généralisé de Moore-Penrose (voir Golub & Van Loan, 1996, pp. 256-257). 

Une autre approche consiste à utiliser une solution du problème des MC quelconque et de 
la projeter dans ker(X)*+. Pour cela, il nous faut déterminer ker(X)+, ou plus simplement 
ker(X). Quelle est la dimension de ker( X)? 

Rappelons le théorème du rang : 


dim(S(X)) + dim(ker(X)) = p = 1+1, 


où p est la dimension de l’espace de départ de l’application linéaire associée à X (ou le 
nombre de colonne de X). Ici nous savons que dim(S(X)) = I et donc dim(ker(X)) = 1. 
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Le sous-espace vectoriel ker(X) est engendré par 1 vecteur non nul de R?, vecteur que 
nous pouvons noter 8t. Nous savons donc que ker(X jt est engendré par J = p—1 vecteurs. 
En termes de coefficients, cela se traduit par la phrase suivante : si l’on souhaite avoir 
un vecteur de coefficients unique, on ne pourra avoir que p — 1 coefficients indépendants, 
le dernier se déduira des autres par une combinaison linéaire. 

Trouvons maintenant un vecteur Bi non nul de ker(X), formant ainsi une base de ker( X). 


Si nous posons que Bi = (-1,1,...,1)’, il est bien sûr non nul. Nous savons que X = 
(1, Ac) mais aussi que la somme des colonnes de Ac vaut 1, donc lorsque l’on effectue 
XB’ nous trouvons On et donc 6t = (—1,1,...,1)' est une base de ker(X). Tout vecteur 


orthogonal à 8t sera dans ker(X j=; et il suffit donc de projeter une solution B des MC 
dans l’orthogonal de 8t pour obtenir la solution de norme minimum ff : 


B = (In — BBYB BP. 
Cette solution offre lintérêt d’être la plus faible en norme, cependant elle n’est pas 


forcément interprétable au niveau des coefficients, dans le sens où l’on ne contrôle pas la 
contrainte linéaire reliant les coefficients entre eux. 


Contrastes 


Une autre approche combine l'élégance de la solution de norme minimum (pas de choix 
arbitraire) à l’interprétabilité. Cette approche part du constat que souvent, le praticien 
n’est pas intéressé par les coefficients en soi mais par leur différence ou toute autre 
combinaison linéaire des coefficients. Par exemple, si nous avons I = 3 médicaments à 
tester avec 1 médicament de référence (le premier) et 2 nouveaux (les 2 suivants), l'intérêt 
sera certainement d’estimer l’apport des nouveaux médicaments en comparaison avec le 
médicament de référence et donc d’estimer 2 différences, (u +a1)— (u+ a2) = ai — a2 et 
(u+aı)-— (u+ a3) = aı — a3. De même, si nous disposons de 2 témoins (les 2 premiers) 
et de 2 nouveaux médicaments (2 suivants), nous pouvons souhaiter estimer l'apport 
d’un nouveau médicament en comparaison avec l'effet de référence (i.e. la moyenne des 
2 témoins). Cela veut dire estimer (a1 + a2)/2 — a3 et (a1 + a2)/2 — a4. 

La question est donc : sous quelles conditions une combinaison linéaire des coefficients est- 
elle estimable de manière unique ? Nous savons qu’il faut que cette combinaison linéaire 
se trouve dans ker(X)*+ mais existe-t-il un critère simple qui assure cela? C’est l’objet 
d’un contraste, défini ci-dessous. 


Définition 6.2 
T vi 
D, tiai est un contraste sur les ai si >, ai = 0. 


La définition 6.2 permet de s’assurer que les contrastes sont estimables de maniére unique. 
Les contrastes sont des éléments orthogonaux à 61, vecteur de base de ker(X). En effet 
nous n’avons pas de contrainte sur y mais uniquement sur a, c’est-à-dire 


I 
0= Soa x1=a'l; = ((0,0’)', Bt). 
i=1 

Tout vecteur a complété par 0 est donc élément de l’orthogonal de ker(X) et donc tout 
contraste est estimable de maniére unique. 

Nous pouvons vérifier que dans le premier exemple ci-dessus les combinaisons linéaires de 
coefficients a = (1,—1,0)’ et b = (1,0,—1)’ sont bien des contrastes et donc estimables 
de maniére unique et de méme dans le second exemple pour les combinaisons linéaires 
a = (1/2,1/2,—-1,0)' et b = (1/2, 1/2,0, -1)’. 


Troisième partie 


Réduction de dimension 


Chapitre 7 


Choix de variables 


7.1 Introduction 
Dans les chapitres précédents, nous avons supposé que le modèle proposé 
Y=XB+E 


pour expliquer Y était juste, et que toutes les variables explicatives (X1,--- , Xp) 
formant le tableau X étaient importantes dans l’explication de la variable Y. 
Dans bon nombre d’études statistiques, nous disposons d’un ensemble de variables 
explicatives pour potentiellement expliquer la variable réponse (exemple de la 
concentration de l’ozone). Rien ne nous assure que toutes les variables disponibles 
interviennent dans l'explication (7.e., dans le modèle de régression). L'utilisateur 
a donc à sa disposition un ensemble de variables potentiellement explicatives ou 
variables candidates. Parmi ces variables explicatives, nous incluons les variables 
originelles ainsi que la transformation de ces variables par des fonctions connues. 
Nous supposerons également dans ce chapitre que les données sont de « bonne » 
qualité, c’est-à-dire qu’il n’y a pas de point aberrant ou levier (voir chapitre 3). 
En pratique, cette condition est rarement satisfaite. 

Nous avons p variables (p < n) à notre disposition et nous supposons, comme 
nous l'avons toujours fait dans ce livre, que la constante (la variable 1) fait partie 
des variables candidates, c’est-à-dire que un des X; vaut 1. Le statisticien peut 
souhaiter conserver cette variable particulière dans sa modélisation, il aura donc 
à analyser (2?~') modèles potentiels. Si par contre la variable 1 a le même statut 
que les autres variables de l’étude, il pourra choisir parmi (2? — 1) modèles. 
Comment alors choisir le meilleur modèle parmi ces modèles ? Pour cela, il faut 
définir un critère quantifiant la qualité du modèle. Ce critère dépend de l’objectif 
de la régression. Une fois le critère choisi, il faudra déterminer des procédures 
permettant de trouver le meilleur modèle. Considérons différents objectifs de la 
régression et discutons des conséquences sur le choix du modèle. 
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a. Estimation des paramètres 

Lorsque les paramètres sont estimés dans des modèles plus petits que le modèle 
complet (des variables explicatives sont enlevées du modèle complet), les estima- 
teurs obtenus dans ces modèles peuvent être biaisés. En contrepartie, leur variance 
peut être plus faible que la variance des estimateurs obtenus dans un modèle plus 
« gros ». Un critère qui combine ces deux effets (biais et variance) est l'erreur qua- 
dratique moyenne (EQM) que nous définirons. La trace de l'erreur quadratique 
moyenne permet de comparer directement des modèles avec un nombre différent 
de variables explicatives. 


Nous pouvons également comparer les modèles via l’analyse des valeurs ajustées 
Y. Pour chaque modèle, nous obtenons un vecteur de valeurs prédites Y dans R”, 
et donc, quel que soit le modèle utilisé, nous avons le même objet à analyser. 


b. Sélectionner les variables pertinentes 
L'objectif de la sélection sera alors de déterminer au mieux l’ensemble des variables 
explicatives X; tel que leurs coefficients 3; soient non nuls dans le modèle. 


c. Prévision 

Le but de l’étude est de prévoir le mieux possible des nouvelles observations. Pour 
comparer des modèles sur cette base, nous supposerons que nous recevrons de 
nouvelles observations notées (X*,Y*) et nous comparerons l’erreur de prévision 
obtenue par chaque modele. 


Avant de présenter les différentes procédures et les différents critéres de choix, il 
nous semble important de bien comprendre les conséquences d’un choix erroné de 
l’ensemble des variables sélectionnées en supposant par ailleurs que cet ensemble 
existe. 


Les notations que nous utilisons sont : 


— X est la matrice composée de toutes les variables explicatives (n x p). 

— € est un sous-ensemble (d’indices) de {1,2,...,p}, son cardinal est noté |€| . 
Nous notons € le complémentaire de £ dans {1,2,...,p}. 

— Xe est la sous-matrice extraite de X dont les colonnes correspondent aux 
indices contenus dans é. 

— Dans le modèle £ comprenant || variables, les paramètres associés aux va- 
riables sont notés Sg et l’estimateur des moindre carrés est désigné par Be. 

— Les coordonnées d’indice € du vecteur B sont notées [À] g- En général, [À] ct À Be 
sauf si S(X¢) L S(X¢). 

— Si nous disposons d’une nouvelle observation 2” = [x¢', x 
prévisions suivantes : 


x! 


j ], nous avons les 


A 


gP = x” 
ve Pe + 2€ Bg 
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7.2 Choix incorrect de variables : conséquences 


L'objectif de cette section est de bien comprendre les conséquences d’un mau- 
vais choix de variables explicatives. Par « mauvais choix » nous entendons soit 
en prendre trop peu, soit en prendre le bon nombre mais pas les bonnes, soit en 
prendre trop. Nous allons analyser un exemple simple et généraliser ensuite les 
résultats. L’exemple que nous traitons dans cette partie est le suivant : admettons 
que nous ayons trois variables explicatives potentielles X1, X2 et X; et que le vrai 
modèle soit 


Y = BX, + B2Xo + € = Xı2p12 + €. 


La variable X3 n'intervient pas dans le modèle pour prédire Y, mais ce fait n’est 
pas connu de l’utilisateur de la régression. Avec trois variables, nous pouvons donc 
analyser sept (23—1) modèles différents, trois modèles à une variable, trois modèles 
à deux variables et un modèle à trois variables. Nous analysons les 7 modèles mais 
ne précisons les calculs que lorsque £ = {1}. Pour ce modèle, nous obtenons comme 
estimateurs : 


Bi = (XiX) XY 
Yi = Px,Y 
ôi = ||PxzY|P/(n-}). 


7.2.1 Biais des estimateurs 


Analysons tout d’abord le biais de ces estimateurs en nous servant du vrai modéle 
EY = 6, X1 + BaX2 = X12012. Ona 


EB, = (XiX) XEY = Bi + (Xi Xi) XX 2 
EY, = XiB + Px, X2b2. 
Le biais est donc : 
B(B) = Eli) - Bi = (X{X1) XI X262 
BY) = Ei) -E(Y) = Px, X262 — X2Ba = —Pyi Xoo. 


La matrice de projection orthogonale Px. est non aléatoire (le choix de X; ne se 
fait pas en fonction de Y), nous pouvons sortir cette matrice de l’espérance. La 
trace d’un projecteur est égale à la dimension de l’espace sur lequel on projette, 
nous avons donc : 


1 1 


1 1 
= Ps (V (M) + E(Y)E(Y)')) = o? + —— li2Xi2Pxi Aro 


1 
= o+ Ball Px Xoll’. 
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Le biais de la variance estimée vaut ainsi : 


À 1 
B(6?) = ——bil|Px+ Xoll’. 
n— 1 1 


Le biais des estimateurs des 7 modèles possibles est donné dans le tableau 7.1. 


modèle estimations propriétés 
Bas ~ e EL a 

ô= ir B6?) = 2 B2|Pxs Xol 
yoxe =X BU) = Pa Xib 

ô= — B(ô2) = H2} Px Xill? 
Y = Xb+ € Y; = ae , B(Y3) = —Px1 X12612 

63 = a B(63) = war bi2Xi2Px} X12612 
Y=Xnfate = e TO= 

ôi = — B(Gï2) = 0 
es Pia sete Yi3 = rae | B(Yi3) = —Pxi X12612 

QE a B(67s) E waa bi2Xi2Px4 X12b12 
Y = X23623 +€ Y23 = ar | B(Y23) = — Py} X12b12 

633 = a B(633) = wa bi2Xi2Px} X12612 
Y = Xı123ß123 + € Yiz = ranz, sen 

62,3 = — 1 — B(6%23) = 0 


Tableau 7.1 — Biais des différents estimateurs. 


Nous constatons alors que dans les modèles « trop petits » (ici à 1 variable), c’est-a- 
dire admettant moins de variables que le modèle « correct » inconnu du statisticien, 
les estimateurs obtenus sont biaisés. A l’inverse, lorsque les modèles sont « trop 
grands » (ici à 3 variables), les estimateurs ne sont pas biaisés. Il semblerait donc 
qu’il vaille mieux travailler avec des modèles « trop grands ». Nous pouvons énoncer 
un résultat général (voir exercice 7.2). 


Proposition 7.1 
Be et Ye sont en général biaisés. 


L’estimation du biais est difficile car x’B est inconnue. Remarquons que ô? est en 
général biaisé positivement, c’est-à-dire que, en moyenne, l'espérance de ô? vaut 
o? plus une quantité positive. 
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7.2.2 Variance des estimateurs 


Les dimensions des estimateurs varient avec la taille du modèle. Cependant, en 
nous servant de la formule d’inverse par bloc donnée en annexe, nous pouvons 
montrer que les estimateurs des composantes communes ont des variances plus 
faibles dans le modèle le plus petit : 


V(61) < V([Bi2l1) < V({B123]1)- 


ou 
Y = Xibi +E Vii) = (x) o? 
A XIX XX 
Y = Xı2ß12 + € V(Bi2) = ( Fe XX, ) a 
| XIX, XX: XX 
Y = Xı23b123 +E V(Gi23) = XX2 XX; | 0°. 
XX 


Si nous travaillons avec les valeurs ajustées, nous avons le même phénomène : 


Y = XiB+e V) = Pee 
Y=XpSote  V(®) = Pro? = Px,0? + Pynta’ 
Y = Xibin te V(Yie3) = Px’ = Px,o? + Py nxt”. 


Nous pouvons énoncer un résultat général (voir exercice 7.3) : 


Proposition 7.2 

1. V([lÊ]e) — V(Be) est une matrice semi-définie positive, ce qui veut dire que les 
composantes communes aux deux modèles sont mieux estimées (moins variables) 
dans le modèle le plus petit. 


2. La variance des données ajustées dans le modèle le plus petit est plus faible que 
celle des données ajustées dans le modèle plus grand V(Y) > V(Ye). 


Si le critère de choix de modèle est la variance, l’utilisateur choisira des modèles 
admettant zéro paramètre à estimer! En général, il est souhaitable d'obtenir un 
modèle précis en moyenne (faible biais) et ayant une variance faible. Nous venons 
de voir qu’un moyen simple d’atteindre le premier objectif consiste à conserver 
toutes les variables dont nous disposons alors que le second sera atteint en éliminant 
toutes les variables. L’erreur quadratique moyenne (EQM) va concilier ces deux 
objectifs.Cette définition a été donnée au chapitre 2 mais nous la rappelons ici. 


7.2.3 Erreur quadratique moyenne 
L'erreur quadratique moyenne (EQM) d’un estimateur 6 de 6 de dimension p est 


EQM(6) = E((9—6)(0 — ô) 
=  E(6 — 0)E(6 — 6) +V (Ô), 
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c’est-à-dire le biais « au carré » plus la variance. Un estimateur biaisé peut être 
meilleur qu’un estimateur non biaisé si sa variance est plus petite. 

Revenons au probleme de la régression où nous avons plusieurs ensembles de va- 
riables €. Nous allons utiliser 1EQM comme mesure de comparaison. Nous pouvons 
comparer soit des estimateurs Be € RI‘, soit des valeurs ajustées we Be € R, ot 
Te correspond à une ligne de la matrice Xe, soit des valeurs prévues of’ Be E R, 
où xg € RI‘! est une nouvelle observation. Il est classique de traiter le choix de 
variables via analyse de la valeur ajustée ÿ ou de la valeur prévue 4 et non 
pas via les estimateurs Be dont les dimensions varient avec |é|. Les définitions que 
nous allons introduire de l’'EQM et de PEQM de prévision, notée EQMP, seront 
adaptées à notre problème. 


Définition 7.1 (EQM) 
Considérons le modèle de régression Y = XB +€ où p, le paramètre inconnu du 
modèle, peut avoir des coordonnées nulles. Soit x € RP le vecteur colonne d’une 


observation, nous avons ze € RI‘! et Be l’estimateur des MC obtenus avec ces |£| 
variables. L’erreur quadratique moyenne est définie par 


EQM(ÿe) = E((xee — 2'8)?) = V(aeBe) + B? (ae Ge), 


où B(x be) = Ex! Be) — x'B est le biais de wt Be. 
Si nous possédons n observations xe regroupées dans une matrice Xg et Be lesti- 


mateur des MC obtenu avec ces |E| variables, nous définissons la trace de la matrice 


de VEQM par 
tr(EQM(Ye)) = tr(V(XeGe)) + B(Xe Be)! B( Xe Be). 


Nous pouvons développer le calcul de la décomposition de PEQM pour les valeurs 
ajustées avec le modèle £ 


tr(EQM(Ÿe)) = tr(V(Xebe)) + B(Xebe) B(XeBe) 
= tr(V(Px,Y)) + (E(XeBe) — XB)! (E(Xebe) — XB) 
= |é\o* + || — Px.) Xl). (7.1) 


Afin de pouvoir sortir Px, de la variance, il faut que Px, soit fixe et donc que 
le choix du modèle Xg ne dépende pas des données sur lesquelles on évalue le 
projecteur. Si le choix des variables a été effectué sur le même jeu de données que 
celui qui sert à estimer les paramètres, nous devrions considérer un terme de biais 
supplémentaire appelé biais de sélection. Nous reviendrons sur ce concept à la fin 
du chapitre. 

Revenons à l’exemple et calculons l’'EQM des 7 modèles 


Y = BX, + b2X2 +€ = Xı12b12 + E. 


Considérons le modèle avec une variable X4, nous avons pour le terme tr(EQM), 
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utilisant #2 et des propriétés des projecteurs (symétrie, idempotence et trace) : 


tr(V(X1f1)) + B(X1 61)’ B(X1 61) 

= tr(V(Px,Y)) + |E(X1f1) — X12812|/? 

o° tr(Px,) + |E(Px, (X12812 + €)) — X12812|? 
= 0 + ||Px2X12519|?. 


tr(EQM(X11)) 


Nous avons donc : 


tr(EQM(X161)) = 0? + ||PxX12612ll? 
tr(EQM(X242)) = o? + || Px} X12612 
tr(EQM(X3ĝ3)) = 9? + || Px} X12b12ll? 
tr(EQM(X19012)) = 20° 
tr(EQM(Xi3613)) = 20° + || Px X12812|? 
tr(EQM(X23423)) = 207 + ||Pxs X12812|| 
tr(EQM(X1238123)) = 30°. 


Dans le cas où nous connaissons le bon modèle, choisir le modèle ayant la plus 
petite tr(EQM) parmi les sept modèles initiaux revient à analyser la tr(EQM) des 
quatre modèles suivants : 


tr(EQM(X1f1)),  tr(EQM(X262)), tr(EQM(X365)) et  tr(EQM(X 12012). 


Supposons maintenant que nous connaissons les autres quantités inconnues et que 
la plus petite norme soit celle de || Py X12812\||?. Il nous faut donc choisir entre 


tr(EQM(X: 61) = o? + || Px X12512|? et tr(EQM(X 12812) = 207. 


Afin de choisir le modèle ayant la plus petite tr(EQM), il faut comparer a? à 
| Px} X12A12I?. Cela sera donc le modèle X; ou le modèle X12, tout dépendra 
de la valeur de g? et de | Px X12519||?. Dans l’exemple de la figure 7.1, nous 
sélectionnons le modèle 2 (le vrai modèle) car dans ce cas | Px 1X 12412||? > o°. 
Si au contraire || Px1 X12512||? < 07, nous choisissons le modèle 1, c'est-à-dire un 
modèle un peu faux (le terme de biais non nul) mais plus précis (la variance est 
plus faible) que le vrai modèle. 
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___ EQM 
Variance 
pr Biais au carré 


EQM 


> 


Biais élevé Biais faible (nul) 
Variance faible Taille du modèle Variance élevée 


Fig. 7.1 — Compromis biais?/variance dans la cas où tr EQM(1) > 207. 


Il est en général difficile d’estimer le biais car la valeur du paramètre est inconnue, 
il est par contre plus facile d’estimer la variance. Nous verrons dans la suite de 
ce chapitre des procédures pour estimer l’'EQM, mais dans un premier temps il 
semble plus facile de considérer lEQM de prévision ou sa trace. 


7.2.4 Erreur quadratique moyenne de prévision 


L’EQM ou sa trace est un critère classique en statistique, mais il ne fait pas 
intervenir de nouvelles observations Y*. Si l’on souhaite donc évaluer l’'EQM de 
prévision de ces nouvelles observations Y*, nous avons la définition suivante : 


Définition 7.2 (EQMP) 
Considérons x* € RP, une nouvelle observation, et x£ ses composantes correspon- 
dant à €. L'erreur quadratique moyenne de prévision est définie par 


EQMP(9E) = E((xf’ Be — y*)?) = EQM(2}' Be) + 0? — 2E([x} Be — 2*'Ble*). 
Si e* west pas corrélé avec les €, nous avons alors 
EQMP (9?) = EQM(2? fe) + 0°. 


Si nous possédons n* nouvelles observations x* regroupées dans une matrice X*, 
nous utilisons la trace de l'EQMP 


tr(EQMP(Ÿ?)) = tr(EQM(XEB)) + n*o? — 2E((Xž Âe — X*B)'e*). 
Si e* west pas corrélé avec les €, nous avons alors 
tr(EQMP(Y?)) = tr(EQM(Xf¢)) + n*o’. 


La derniére équation ci-dessus nous indique la chose suivante : si les données sur 
lesquelles se fait la prévision sont indépendantes des données sur lesquelles sont 
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calculées les estimations (deux jeux de données différents), alors l'EQM et l'EQMP 
sont identiques à (n* fois) la variance de l’erreur près. 

Dans le cas où les données X sont utilisées pour l’estimation et la prévision (dans 
ce cas-là il est d'usage de parler plutôt d’ajustement). La formule de l'EQMP 
devient : 


tr(EQMP(Ÿ)) = E||Y—Y|/? 
= tr(EQM(X8)) + no? — 2E((XB — XB, )) 
= tr(EQM(XB)) + no? — 2E((Xĝ, e)) 
= tr(EQM(X8)) + no? — 2K (e' Pxe) 
= tr(EQM(X8)) + no? — 2po°. 


Reprenons maintenant l’exemple précédent 
Y = BıXı+ ßb2X2 +€ = Xı2ß12 +€ 


et supposons que nous ayons n* nouvelles observations concaténées dans la matrice 
X*. Nous avons alors 


tr(EQMP(X}ĝ)) = (n* + 1)o? + || Px: Xizb]? 
tr(EQMP(X3ĝ2)) = (n* + 1)o? + || Px Xizb]? 
tr(EQMP(X$83)) = (n* + 1)o? + || Px Xizb]? 
tr(EQMP(X},412)) = (n*+2)o? 
tr(EQMP(Xģĝis)) = (n*+2)o?+ Px X7A19||? 
tr(EQMP(X32023)) = (n*+2)o?+ Pya Xi2B12||° 
tr(EQMP(X t39123)) = (n*+3)o?. 


Si nous calculons la tr(EQMP) théorique des trois modéles, nous obtenons 


tr(EQMP(Y(X1)) = || Px} XB]? + o7(n - 1) 
tr(EQMP(¥ (X12) = o7(n—2) 
tr(EQMP(Y(Xi93))) = o?(n—3). 


La tr(EQMP) préconise d’utiliser le modèle ayant le plus de variables explicatives. 
En fait ce critère n’a pas de sens lorsqu'il est utilisé sur les données qui ont servi 
à estimer les paramètres. 

Nous venons de voir les effets d’un mauvais choix de variables et il est donc impor- 
tant voire même primordial d'effectuer correctement ce choix en pratique. Pour 
comparer ces modèles, nous pouvons utiliser la validation croisée qui est présentée 
en détails algorithme 3 p. 238. Le principe est toujours le même, à savoir qu’on 
divise le jeu de données initial en K parties distinctes approximativement de même 
taille. Pour une partie donnée, par exemple la 7°, on met de côté cette 7° partie 
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des données pour effectuer la prédiction après avoir estimé les modèles sur toutes 
les autres observations appelées souvent données d’apprentissage. Et on répète ce 
travail sur les K parties. Ainsi à la fin de la procédure, tous les individus ont été 
prévus une fois et comme nous connaissons la valeur de la variable à expliquer, il 
est donc possible d'évaluer la qualité de la prévision. Le critère utilisé en général 
est erreur quadratique moyenne de prévision (EQMP) qui est la moyenne des 
erreurs de prévision au carrés 


= 1 2 
EQM = >D ey 


Y? désigne la prévision de l’observation à sans avoir utilisé observation + dans le 
modèle. Le modèle sélectionné est bien sûr le modèle Ê qui minimise cette moyenne. 
La procédure est une procédure de validation croisée de taille K (K-fold cross- 
validation). Il est possible de faire non pas K blocs mais n blocs, cela correspond 
à laisser de côté un individu à chaque fois et cette procédure est appelée (leave- 
one-out). 

En général, l’ordre de grandeur de K est 10, si le nombre d'observations par bloc est 
suffisant. Mais pour optimiser le temps de calcul, ce choix peut être un multiple du 
nombre de coeurs de votre ordinateur car cette procédure se parallélise facilement. 
Le problème réside dans le fait qu’il faille calculer le critère de choix, sur tous 
les ensembles de variables £. Cette procédure n'étant pas implémentée dans les 
logiciels, nous allons présenter les critères classiques de choix de variables et nous 
montrerons dans le chapitre 10 comment combiner les méthodes de sélection avec 
cette méthode de comparaison. 


7.3 Critères classiques de choix de modèles 


Nous allons nous intéresser aux méthodes classiques de sélection de modèle. Les 
principaux critères de choix sont le R?, le R?, le Cp, PAIC, le BIC et leurs ex- 
tensions. D’un autre côté, le test F entre modèles emboités permet de comparer 
selon une approche de type test classique les modèles entre eux. Quand ceux-ci 
ne sont pas emboîtés l’un dans l’autre, une approche basée sur des intervalles de 
confiance peut être utilisée. Cette approche, moins répandue, n’est pas en général 
implémentée dans les logiciels. Néanmoins le lecteur intéressé pourra consulter la 
description de Miller (2002). 


Nous allons présenter différents critères de choix de modèles et les appliquer aux 
données de l’ozone. Il y a donc n = 50 observations, la constante sera toujours 
dans le modèle et nous avons 9 variables explicatives potentielles. Sur ce jeu de 
données, nous pouvons analyser 512 (2°) modèles (la constante est dans tous les 
modèles). 
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7.3.1 Tests entre modèles emboités 


Si les modèles concurrents sont emboîtés les uns dans les autres, il est alors possible 
d'utiliser une procédure de test (5.2 p. 100). Notons le modèle € à || variables 
et le modèle é} correspondant au modèle é auquel on a rajouté une variable 
supplémentaire. Afin de choisir entre ces deux modèles emboîtés, nous avons la 
statistique de test suivante (voir p. 100) : 


_ SCR(£) - SCRE) 


6? 


F 


Afin que F suive une loi de Fisher, l'estimation de 6? doit suivre une loi du 
x? indépendante du numérateur. Classiquement g? est estimé de deux manières 
différentes : 


1. Estimation de o? par SCR(E41)/(n — |E] — 1). 
Si on cherche à choisir seulement entre € et €41, alors l’estimateur utilisé pour 


g? est celui provenant du modèle le plus « grand », soit le modèle (€41). Cette 


solution est en général utilisée par les logiciels de statistiques. 

2. Estimation de o? par SCR(p)/(n — p). 

Si on considère tous les modèles possibles construits à partir de p variables ex- 
plicatives, alors l’estimateur pour la variance des résidus o? utilisé provient de 
l’estimateur trouvé pour le modèle complet. 

Nous avons donc le théorème suivant. 

Théorème 7.1 (Tests entre modèles emboîtés) 

Soient deux modèles, le modèle € et le modèle £,1. Le test permettant de tester 
l'hypothèse Ho: EY € Mx, contre l'hypothèse Hi: EY € MXi? s'effectue 


selon le protocole suivant (en fonction de l’estimation de o°). 

1. La variance o? est estimée par SCR(E41)/(n — |€| — 1). Si 

r, — SCRE) - SCR (én) 
SCR (+1) 


alors le modèle £ est repoussé, au niveau a du test, au profit du modèle (€41), une 
variable est rajoutée au modèle. 


x (n= |El- De irait =a) 


2. La variance o? est estimée par SCR(p)/(n — p). Si 
_ SCR(E) — SCR (€41) 
SCR(p) 


alors le modèle £ est repoussé, au niveau a du test, au profit du modèle (€41), une 
variable est rajoutée au modèle. 


Fo x (n p) > eal a a). 


Si €41 est le vrai modèle, alors les deux estimateurs de a?, SCR(E41) et SCR(p) 
sont non-biaisés, mais la variance de SCR(£,1) est plus petite que la variance de 
SCR(p). Donc dans ce cas, on préfère le test F; car il est plus puissant. Si aucun 
des deux modèles n’est le vrai modèle, il est difficile de comparer ces deux tests 
car o? n’est pas estimée de la même manière. 
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7.3.2 Le R? 


Le R? est défini via la SCR, en effet 


_ We - 7112 SCR(£) 


2 
R) = Ty aye > SCT 


Il s’agit d’un critère relié directement à la SCR(£)). Le R? augmente toujours avec 
le nombre de variables [£|. Comparons la variation du R?(£) obtenu avec les € 
variables et le R? obtenu avec les mêmes € variables plus une autre variable, soit 


R?(€41). 


Pxi¥||? —||Pxz YI? 
£ S41 
IY — 511? 
2 2 
Pye Pxa Y + Pye Pxe VI — Px Y| 
|¥ — 511? 


R* (E41) — R°(E) = 


= Pres Y|? >0 
IY =i? 7 


Nous avons le graphique général suivant : 


R2 


Taille du modèle 


Fig. 7.2 — R? théorique. 


Bien entendu le même résultat est obtenu avec la définition du R? quand les deux 
modèles ne contiennent pas la constante (2.4, p. 42). 


En général, il ne faut donc pas utiliser le R? comme critère de choix de modèle 
car ce critère va toujours augmenter avec le nombre de variables. Il peut cependant 
servir à comparer des modèles ayant le même nombre de variables explicatives. 


Voyons cela sur l’exemple de l’ozone : 


Choix de variables 171 


, . 
be el os 8 | - 
[af 8 8 . 

ie i | | 

Al i i : 

SJ 8 8 ss 

Sts | | 

2 4 6 8 10 


Taille du modèle 


Fig. 7.3 — R? pour les 511 modèles possibles de l’exemple de l'ozone. 


Nous savons que cette quantité croît avec le nombre de variables incluses dans le 
modèle et ce résultat se retrouve sur le graphique (fig. 7.3). Le R? ne permet pas de 
choisir entre différents modèles. De manière classique on parle alors d'ajustement 
de qualité croissante des données : le R? augmente, la SCR diminue, donc l’erreur 
estimée est de plus en plus petite et donc les ajustements Ÿ sont de plus en plus 
proches de Y. On ne parle pas de prévision puisqu'on a utilisé les Y pour estimer 
Y. Par contre, à taille fixée, le R? permet de comparer les modèles entre eux et de 
sélectionner celui qui donne le meilleur ajustement. 

En considérant le graphique 7.3, le meilleur modèle au sens du R? est donc celui 
avec 10 variables. Cependant, la valeur du R? obtenue pour le meilleur modèle 
à 5 variables est relativement proche de la valeur du R? obtenue avec le modèle 
complet. L'utilisateur pourra peut-être considérer ce modèle. 


7.3.3 Le R? ajusté 


Le R? ajusté est défini par 


RO = 1- EG RE) 
SCR(E)/(n — £l) 

SOT /(n—1) 

_ ,_n=1S8CR() 

= 1- Sor = 


Le R? est donc fonction des carrés moyens définis comme la somme des carrés 
divisée par le nombre de degrés de liberté. Le but est de maximiser le R2, ce qui 
revient à minimiser SCR(É) divisée par son degré de liberté. La SCR et n — |El 
diminuent lorsque |£| augmente. Le carré moyen résiduel CMR(£) peut augmenter 
lorsque la réduction de la SCR, obtenue en ajoutant une variable dans le modèle, 
ne suffit pas à compenser la perte d’un ddl du dénominateur. Nous obtenons alors 
en général le graphique suivant pour la SCR /ddl et le R2 ajusté : 
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SCR/ddl 


>_> z 
Taille du modèle Taille du modèle 


Fig. 7.4 - CMR et R2. 


Voyons maintenant le critère du R2 sur l'exemple de l’ozone : 


o 
>: f | F : 
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s ! Q 8 ° 
£ | i 8 é 
a o H e o 
= 4 8 ry s 
ag © hi 
Š 8 
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Sd es 
= 8 o 
2 4 6 8 10 


Taille du modèle 
Fig. 7.5 — R? ajusté pour l’exemple de l’ozone. 


Sur le graphique précédent, l’utilisation du R2 nous conduirait à choisir un modèle 
a 5 ou 6 variables. 
7.3.4 Le C, de Mallows 


La définition du C, de Mallows (1973) est la suivante : 


Définition 7.3 
Le C (£) d’un modèle à € variables explicatives est défini par 


oo = RO  n + 2j (7.2) 


où SCR est la valeur de la SCR(€) dans le sous-modèle caractérisé par € alors que 
6? est un estimateur sans biais de o°. En général 6? a été estimé dans le modèle 
complet a p variables. 


Remarque 
Si Px, est non aléatoire (le choix de € ne dépend pas de Y), nous avons montré 
(équation (7.1)) que 


tr(EQM(Ye)) = [élo? + || — Px) Xl’. 
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Calculons l’espérance de la somme des carrés résiduels : 
E(SCR(é)) = E(||Y — Yell?) 
= E(|(7— Px,)X6 + (I - Px,)ell’) 
= || - Px) XB? + (n — |£)’. 


= 


= 
ny 


En remplacant, nous obtenons 


tr(EQM(Ye)) = E(SCR(£)) — (n — 2/él)o? 


A modèle fixé, 6? Cp est un estimateur sans biais de la trace de lEQM. Intuitive- 
ment le modèle avec le 6? Cy le plus faible sera (en moyenne du moins) le modèle 
avec la tr(EQM) la plus faible et donc la tr(EQMP) la plus faible. Cependant, outre 
les hypothéses classiques (indépendance du bruit, homoscédasticité et X fixé) afin 
d’avoir légalité E(Px,Y) = Px ,E(Y) utilisée dans le calcul, il faudrait que le 
choix du modèle X£ ne dépende pas des données sur lesquelles on évalue le Cy. 
Autrement dit, pour que le Cp ou plus exactement 6? Cp soit un bon estimateur 
de l’'EQM, il faut que l’estimation des paramètres et le choix des modèles ne 
dépendent pas de données sur lesquelles on calcule le ô? Cp. Cela est rarement 
fait en pratique et donc l’estimateur du Cp est biaisé. Ce biais est appelé biais de 
sélection et nous étudierons en détail ce phénomène en fin de chapitre. 


Dessiner le C,(€) 


En général, nous dessinons en abscisse la valeur de || et en ordonnée la valeur 
correspondante de C, (£) pour tous les modèles. Ce dessin est en général peu lisible 
et on préfère retenir le meilleur modèle à é variables et dessiner les p valeurs de 
C,(€) en fonction de |€| (fig. 7.6). 


e 
a 
= 
= 
o ê ° Le) 
œæ r o : 
o H H è 
e A i i 
male 3 a © è 
© O — 
i i H ° 
9 è 
li: | | 
8 3 k wo o 
i| | i z 
= 
2 4 10 2 10 


Taille da modèle 3 : Taille an modèle i 
Fig. 7.6 — Choix du C, pour l’exemple de l’ozone, 511 modèles, ou meilleur modèle 


pour chaque taille possible. 
Choisir le modèle grâce au C,(€) et interpréter 


Classiquement, il est recommandé de choisir le modèle admettant 


Cp (8) < él. 
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Le choix du modèle via le C,(€) sera le modèle dont la valeur du C,(€) sera proche 
de la première bissectrice (y = ||). 


2 4 6 8 10 
Taille du modéle 


Fig. 7.7 — Choix du C, pour l’exemple de l’ozone. 


Au vu de ce graphique, les modéles admettant plus de 4 variables sont susceptibles 
d’être sélectionnés. 


Interprétation 

Plus le modèle est explicatif, plus la quantité SCR(£) est faible. Cette quantité 
diminue si l’on ajoute des variables à un modèle donné puisque l’on projette sur 
des sous-espaces de taille croissante. Le critère Cp permet donc un équilibre entre 
un faible nombre de variables (|£| faible) et une SCR(£) faible. Il est possible de 
généraliser le C, en remplaçant le coefficient 2 qui assure la « balance » par une 
fonction des données notée f(n) qui soit différente de 2. 

Si le modèle est correct (si les variables intervenant dans le modèle ont été sé- 
lectionnées sans utiliser les données), alors SCR(£) est un estimateur sans biais 
de (n — |£|)o? et C,(£) vaudra approximativement |é|. Cette interprétation n’est 
valable que si le C,(£) est calculé avec d’autres données que celles qui permettent 
le choix de €. A la fin de ce chapitre, une note présente en détail ce problème. 

Si nous rajoutons des variables qui n’interviennent pas dans le modèle, la SCR ne 
va pas beaucoup diminuer mais |€| va augmenter, nous aurons alors un C,(£) qui 
sera plus grand que |£]. 

Si nous avons omis des variables importantes, la SCR sera un estimateur de (n — 
lél)o? et d’une quantité positive. Le C,(€) sera donc plus grand que |é|. 


7.3.5 Vraisemblance et pénalisation 


Sous l’hypothèse de normalité des résidus, la log-vraisemblance de l’échantillon 
vaut (section 5.1 p. 91) 


II 


L(Y, B, 0°) log L(Y, B, 0°) 


n 2 Nn 1 2 
z logo 5 log 2m z2 lY XB“. (7.3) 
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Le calcul de la log-vraisemblance (évaluée à l’estimateur du maximum de vraisem- 
blance) pour le modèle admettant |é| variables vaut alors 


poire Log SRS) 5 (1 +log2r). 


n 


Choisir un modèle en maximisant la vraisemblance revient à choisir le modèle ayant 
la plus petite SCR.. Il faut donc introduire une pénalisation. Afin de minimiser un 
critère, on travaille avec l’opposée de la log-vraisemblance et les critères s’écrivent 
en général 


—2L(6) +216 +1]f(n), 


où f(n) est une fonction de pénalisation dépendant de n. La pénalisation tient 
compte non pas du nombre de variables mais du nombre de paramètres à estimer. 
Dans le cas général, si le modèle admet || variables, il y a donc || paramètres à 
estimer plus l’estimateur de a? d’où |E + 1]. 


Akaike Information Criterion (AIC) 


Ce critére, introduit par Akaike en 1973, est défini pour un modéle contenant les 
variables indicées par € : 
AIC(E) = —2L(6) +216 +1] 
n 


+n(1 + log2r) + 2|€ + 1l. 
L’AIC est une pénalisation de la log-vraisemblance par deux fois le nombre de 
paramètres. Nous obtenons une définition équivalente 


AIC(£) = n(1 + log 27) + n log SCC) + 2|€ +1|. 


L’utilisation de ce critère est simple : il suffit de le calculer pour tous les modèles 
E concurrents et de choisir celui qui possède l’AIC le plus faible. 


Bayesian Information Criterion (BIC) 


Le BIC (Schwarz, 1978) est défini comme 


BIC(E) = —2£(€) + |E + 1|logn = n(1 + log 27) + nlog ee 


+|£+1|log n. 
L'utilisation de ce critère est identique à celle de PAIC et nous pouvons constater 
qu’il revient aussi à pénaliser la log-vraisemblance par le nombre de paramètres 
|€| multiplié par une fonction des observations (et non plus 2). Par définition, 
f(n) vaut ici logn/2. Ainsi, plus le nombre d'observations n augmente, plus la 
pénalisation est faible. Cependant, cette pénalisation est en général plus grande 
que 2 (dès que n > 7) et donc le BIC a tendance à sélectionner des modèles plus 
petits que l’AIC. 
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D’autres critéres 


A titre d’exemple, Bozdogan (1987) a proposé 2f(n) = logn+1, Hannan & Quinn 
(1979) ont proposé f(n) = cloglogn où c est une constante plus grande que 1. Il 
existe de très nombreuses pénalisations dans la littérature mais les deux les plus 
répandues sont le BIC et l’AIC. 


7.3.6 Liens entre les critères 


Avec la procédure de test, nous comparons les modèles emboîtés admettant £ et 
E+ 1 variables. Nous conservons le modèle le plus petit, celui à € variables, si 
SCR(É) — SCR(E + 1) 


° = SORE+D/m- ID <* 


où 4 est une approximation pour n grand du fractile fi n_1e-1(.95). Qu'en est-il 
des autres critères ? 

Commençons par le R2. Si nous choisissons le modèle à || variables, c’est que 
nous avons 


RG) > Ree + 1). 
En récrivant ces termes en fonction des SCR, nous avons 


SCR(£) _ SCR(E +1) 

n— {él n—|€+1| 

(n — |g] — 1) SCR(6) 
SCR(E + 1) 

__ SCR(£) — SCR(é + 1) 

© SCR(E + 1)/(n — |$] — 1) 


n—|€|-1+1 


Les deux procédures sont parfaitement comparables et il est évident que la procé- 
dure avec les tests choisira des modeles de taille inférieure ou égale a la procédure 
utilisant le R? ajusté. 

De la même façon, analysons le résultat obtenu avec un critère de vraisemblance 
pénalisée. Si nous choisissons le modèle à € variables, nous avons 


—2L(£)+2l£+1|f(n) < —-2L(È +1) +2/€ +1|f(n) +2f(n). 


En remplaçant, nous obtenons 


7 SORE + SOR(E + 1) 3 fo) 
SCR(E) < SCR (E+ 1) exp 22) 


SCR(E) < SCR(E+1) lexp A = + SOR(E +1). 
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Nous obtenons alors 


SCR(€) — SCR(E + 1) 
SCR(E + 1)/(n — |g] — 1) 


< =el- D fexp 2) 1], 


Si 2f(n)/n est proche de 0, nous approximons la quantité précédente après un 


développement limité à l’ordre 1 par 


__ SCR(€) — SCR(E + 1) z « Iel 
= seme rays oy < 2/00) (1 n ). 


Le tableau suivant donne les différentes valeurs en fonction du critére utilisé. 


Critères classiques Valeur de 6 
Test 4 

R? ajusté 1 

AIC 2 (1 — l+ 
BIC logn (1 — E) 


Tableau 7.2 — Valeurs de 6 en fonction des critères. 


Le Cp n’est pas intégré dans ce tableau car en écrivant le choix du modèle à € 
variables avec le Cp : 


Cp(E) < Cp(E + 1), 


nous avons 


SCR(E) -SCRE +1) |, 
SCR(p)/(n—p) =` 


Le dénominateur du C, est calculé avec toutes les variables initiales et nous n’avons 
pas le ô des autres procédures. Cependant pour p << n, nous pouvons considérer 
que le 6 associé au Cp vaut environ 2. Le Cp aura tendance à choisir des modèles 
plus grands que ceux choisis avec un test entre modèles emboités et une erreur de 
première espèce a = 5 %, mais uniquement si l’on choisit comme estimateur de 
o?, la valeur SCR (p)/(n — p). 

En fonction du nombre d’individus n et du nombre de variables sélectionnées, nous 
pouvons résumer les critères et la taille du modèle dans le tableau suivant : 


Critères classiques Taille || du modèle 


TEST ou BIC faible 
AIC 4 
2 forte 


a 
Tableau 7.3 — Comparaison de |£| des modèles sélectionnés avec n > 7. 
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Il est délicat d’intégrer le C,(£) dans ce tableau car lorsque nous avons écrit le 
C,(€) sous forme de test, nous avions vu que le dénominateur est calculé avec la 
SCR(p)/(n—p). En supposant que les estimateurs de o? (dans un cas SCR(p)/(n— 
p) et dans l’autre SCR(€ + 1)/(n — |€| — 1)) soient presque identiques, la borne du 
C,(€) vaut 2 et celle de PAIC vaut 2(1 — (|€| + 1)/n), l’AIC tend à sélectionner 
des modèles de taille plus grande que le Cy. 


7.4 Procédure de sélection 


La sélection de modèle peut être vue comme la recherche du modèle optimal, 
au sens d’un critère choisi, parmi toutes les possibilités. Cela peut donc être vu 
comme une optimisation d’une fonction objectif (le critère). Pour cela, et à l’image 
des possibilités en optimisation, on peut soit faire une recherche exhaustive car le 
nombre de modèles possibles est fini, soit partir d’un point de départ et utiliser 
une méthode d'optimisation de la fonction objectif (recherche pas à pas). 
Remarquons qu’en général trouver le minimum global de la fonction objectif n’est 
pas garanti dans les recherches pas à pas et que seul un optimum local dépendant 
du point de départ choisi sera trouvé. Si les variables explicatives sont orthogonales, 
alors l’optimum trouvé sera toujours l’optimum global. 


7.4.1 Recherche exhaustive 


Effectuer tous les modéles possibles avec p variables donne 2? —1 possibilités, ce qui 
n’est pas envisageable si p est grand. Des techniques algorithmiques permettent 
cependant de minimiser le nombre de calculs à effectuer et permettent d'envisager 
cette possibilité dans des cas de taille modérée (Miller, 2002). 

Remarquons que ce type de recherche n’a aucun sens lorsque l’on souhaite utiliser 
des tests puisque cette procédure compare uniquement deux modèles emboités l’un 
dans l’autre. 


7.4.2 Recherche pas à pas 


Ce type de recherche est obligatoire pour les tests puisque l’on ne peut tester que 
des modèles emboîtés. En revanche, elle ne permet en général que de trouver un 
optimum local. Il est bon de répéter cette procédure à partir de différents points de 
départ. Pour les autres critères, ce type de recherche n’est à conseiller que lorsque 
la recherche exhaustive n’est pas possible (n grand, p grand, etc.). 


Méthode ascendante (forward selection) 


A chaque pas, une variable est ajoutée au modèle. 
— Si la méthode ascendante utilise un test F, nous rajoutons la variable X; dont 
la probabilité critique (p-value) associée à la statistique partielle de test de Fisher 
qui compare les 2 modèles est minimale. Nous nous arrêtons lorsque toutes les 
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variables sont intégrées ou lorsque la probabilité critique est plus grande qu’une 
valeur seuil. 

— Si la méthode ascendante utilise un critère de choix, nous ajoutons la variable 
X; dont l’ajout au modèle conduit à l'optimisation du critère de choix. Nous nous 
arrétons lorsque toutes les variables sont intégrées ou lorsqu’aucune variable ne 
permet l’optimisation du critére de choix (voir aussi fig. 7.8). 


Modèle de départ 


a Modèle en cours = MO ns 


AIC MO moins bon 
M1 devient MO 


l 

l . : D 

i Ajout d’un coefficient 
1 

l 

l 

l 


Choix parmi tous les modèles (+ petit AIC) 


t ra 


Modéle sélectionné =M1 


Comparaison AIC modele MO et modele M1 


AIC MO meilleur 


Modéle courant MO retenu 


Fig. 7.8 — Technique ascendante utilisant PAIC. 


Méthode descendante (backward selection) 


A la première étape, toutes les variables sont intégrées au modèle. 
— Si la méthode descendante utilise un test F, nous éliminons ensuite la variable 
X; dont la p-value, associée à la statistique partielle de test de Fisher, est la plus 
grande. Nous nous arrêtons lorsque toutes les variables sont retirées du modèle 
ou lorsque la valeur p-value est plus petite qu’une valeur seuil. 
— Si la méthode descendante utilise un critère de choix, nous retirons la variable 
X; qui conduit à l’amélioration la plus grande du critère de choix. Nous nous 
arrêtons lorsque toutes les variables sont retirées ou lorsqu’aucune variable ne 
permet l’augmentation du critère de choix. 


Méthode progressive (stepwise selection) 


C’est le même principe que pour la méthode ascendante, sauf que l’on peut éliminer 
des variables déjà introduites. En effet, il peut arriver que des variables introduites 
en début ne soient plus significatives après introduction de nouvelles variables. 
Remarquons qu’en général la variable « constante », constituée de 1 et associée au 
coefficient « moyenne générale », est en général traitée à part et elle est toujours 
présente dans le modèle. 
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7.5 Exemple : la concentration en ozone 


7.5.1 Variables explicatives quantitatives 


Nous continuons à analyser le jeu de données de l’ozone et à ne retenir que les va- 
riables quantitatives. Le package leaps permet d’effectuer une recherche exhaustive 
lorsque le nombre de variables explicatives n’est pas trop important. Au-dela de 
50 variables, l’argument really.big=TRUE doit être ajouté, au risque d’un temps 
de calcul prohibitif. Nous allons donc effectuer cette recherche. Le logiciel propose 
également de retenir via l’argument nbest, un nombre défini par l’utilisateur de 
modèles ayant 1, puis 2, puis 3, ... variables. Nous fixons ce niveau à 1. 


> library (leaps) 

> recherche <- regsubsets(03 ~ T12 + T15 + Ne12 + N12 + $12 + 
+ E12 + W12 + Vx + O3v, int = T, 

+ nbest = 1, nvmax = 10, method = "exhaustive", data = ozone) 


Pour pouvoir utiliser les résultats de cette procédure, le graphique est l’outil le 
plus approprié. Le logiciel propose 4 critères de choix : le BIC, le Cp, le R? et 
le R?. Nous allons donc dessiner ces résultats avec les 4 critéres. Le graphique 
associé retourne en abscisse les variables et pour une ligne donnée, les variables 
qui sont sélectionnées. La ligne du haut correspond au meilleur modèle et il faut 


donc regarder les variables cochées qui correspondent aux variables sélectionnées. 


Minimisation du BIC 


| > plot(recherche, scale = "bic") 


Nous obtenons le graphique suivant : 


T124 
T154 
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(Intercept) + 


Fig. 7.9 — Méthode exhaustive, critère du BIC. 


Le modèle retenu alors serait le modèle à 5 variables 


03 = 8, + BoT15 + B3Ne12 + ByVx + B503v + €. 
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Minimisation du Cy 
> plot(recherche, scale = "Cp") 


Nous obtenons le graphique suivant : 
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Fig. 7.10 — Méthode exhaustive, critère du C} . 


Le modèle retenu est identique au modèle retenu par le critère du BIC. 


Mazimisation du R2 
> plot(recherche, scale = "adjr2") 


Nous obtenons le graphique suivant : 


0.71 
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0.71 
0.71 
0.7 
0.69 
0.69 
0.67 
0.58 


adjr2 
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(Intercept) 4 


Fig. 7.11 — Méthode exhaustive, critére du R?. 


Le modèle retenu admet plus de variables que les modèles retenus avec les critères 
précédents. Nous avons 


03 = B, + BoT15 + B3Ne12 + 64812 + BsW12 + BgVx + B703v + €. 
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Mazimisation du R? 
> plot(recherche, scale = "r2") 
Nous obtenons le graphique suivant : 
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Fig. 7.12 — Méthode exhaustive, critére du R?. 


Comme prévu, nous conservons avec ce critère toutes les variables initiales. 


Il est intéressant de pouvoir retrouver le modèle choisi dans la sortie de la fonction 
regsubsets. Comme nous venons de le voir le modèle trouvé par l’algorithme 
dépend du critère choisi par l’utilisateur. L’objet R recherche est une liste et 
pour pouvoir extraire le modèle sélectionné, il faut utiliser les ordres suivants : 


> resume <- summary(recherche) 
> nomselec <- colnames(resume$which) [ 
resume$which[which.min(resume$bic),] ][-1] 


Le premier nom correspondant à (Intercept) nous l’éliminons grâce à [-1]. Avec 
ces noms des variables sélectionnées, nous construisons une formule décrivant notre 


modèle sélectionné : 


> formule <- formula(paste("03-",paste(nomselec,collapse="+"))) 


Enfin, nous ajustons notre modèle sélectionné par BIC avec la fonction lm, la 
formule et les données : 


> modeleslectionne <- lm(formule, data = ozone) 
Bien évidemment si l’utilisateur souhaite choisir un autre critère comme le Cp (il 


faut choisir le minimum du critère) ou le R? (il faut alors choisir le maximum du 
critère et remplacer which.min par which.max. 
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7.5.2 Intégration de variables qualitatives 


Il arrive fréquemment que, parmi les variables explicatives, certaines soient quali- 
tatives. Ce problème a largement été abordé dans le chapitre 6 où nous avons vu 
que la solution naïve consiste à partir d’un codage disjonctif complet : chaque mo- 
dalité est transformée en un vecteur d’indicatrices d'appartenance à la modalité. 
Cependant, un tel codage revient à utiliser un coefficient pour chaque modalité 
de la variable dans le modèle et conduit à une surparamétrisation du modèle qui 
west alors plus identifiable. L'utilisateur (ou le logiciel) choisit en général une 
contrainte pour s'assurer de l’identifiabilité des coefficients. Pour le langage R, il 
s’agit de la contrainte treatment : la première modalité (dans l’ordre d’apparition 
de la fonction levels) est le traitement de référence et les coefficients des facteurs 
sont simplement l’écart à cette modalité. 


Le package leaps (par défaut) va donc transformer chaque variable qualitative 
en I — 1 variables indicatrices. Pour la variable qualitative vent (avec I = 4 
modalités), nous aurons donc trois variables indicatrices : OUEST, NORD et SUD 
(la modalité EST est le niveau de base). La variable nebulosite (avec J = 2 
modalités) donnera donc une seule variable SOLEIL (la modalité NUAGEUX est le 
niveau de base). Ensuite le package leaps considére chaque colonne comme une 
variable à part entière et donc les variables indicatrices sont traitées séparément. 
Cela veut dire que la fonction regsubsets peut sélectionner un sous-ensemble de 
modalité parmi toutes les modalités d’une variable qualitative. 


Reprenons l’exemple de l’ozone précédent ot nous intégrons les deux variables 
qualitatives vent qui admet 4 modalités (EST...) et nebulosite qui en admet 2 


> library (leaps) 
> recherche.ex.qual <- regsubsets(03 ~ ., int = T, nbest = 1, 
nvmax = 10, method = "exhaustive", data = ozone) 


Nous voyons en analysant les coefficients du meilleur modéle retenu par exemple 
avec le critére du BIC 
> coef (recherche.ex.qual,which.min(summary (recherche.ex) $bic) ) 
(Intercept) T15 Ne12 03v ventOUEST 
64.0195557 1.1177149 -4.0435737 0.2622327 -9.5269595 


que la seule modalité retenue est la modalité OUEST. Cela veut dire que la fonction 
regsubsets a considéré que l'écart entre les 3 autres modalités (EST, NORD, 
SUD) n’est pas suffisant pour justifier d'inclure les indicatrices pour le vent du 
NORD et du SUD. Le modèle calculé ici, outre les variables quantitatives rete- 
nues, est donc une constante avec une seule indicatrice ventOUEST. Le coefficient 
négatif (qui vaut —9.53) montre que lorsque le vent est à lOUEST l’ozone chute 
(coefficient négatif). Par contre pour les autres directions, rien n’est changé, on 
reste à la constante. 
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Afin de retrouver le modèle final, il faut procéder « à la main » car la variable 
ventOUEST n’existe pas dans le data-frame initial. Pour cela, nous sélectionnons 
les noms des variables du meilleur modèle grâce a la procédure évoquée plus haut. 


| > resume <- summary(recherche.ex.qual) 
> nomselec <- colnames(resume$which) [ 


resume$which[which.min(resume$bic),] ][-1] 
| 


Ensuite nous codons les variables qualitatives dans un tableau complet (via la fonc- 
tion model.matrix qui prend les mémes arguments que 1m mais qui renvoie seule- 
ment la matrice X). De ce tableau complet qui contient donc les variables quanti- 
tatives et les indicatrices des modalités (et surtout celle sélectionnée : ventOUEST), 
nous gardons celles souhaitées et nous ajoutons la variable à expliquer. Enfin nous 
refaisons le modèle sur ce tableau qui ne contient que les variables utiles. 


> Xcomplet <- model.matrix(03 ~ ., data = ozone) 
> df <- cbind(ozone[, "03"], Xcomplet[, nomselec] ) 


> modelebic <- 1lm(03 ~ ., data = df) 


La question de sélectionner des modalités dans le choix de variables est une ques- 
tion qui n’admet pas une réponse simple. Il est souvent important de conserver 
toutes les modalités d’une variable qualitative. La fonction step propose d’enlever 
(ou de conserver chaque variable qualitative) dans sa globalité en tenant compte 
dans le calcul de l AIC du nombre de modalités. 


> choix.step <- step(lm(03-.,data=ozone)) 

Start: AIC=269.88 

03 - Ti2 + T15 + Nei2 + N12 + 512 + E12 + W12 + Vx + O3v + 
nebulosite + vent 


La fonction part du modèle complet calcule PAIC en enlevant chaque variable et 
choisit d’enlever la variable qui une fois enlevée fait le plus baisser AIC et itère. 
L’algorithme s’arréte lorsque |’AIC ne baisse plus. Le modèle final retenu se trouve 
dans l’objet choix.step et il est possible de faire un predict directement sur cet 
objet. 


7.6 Exercices 


Exercice 7.1 (Questions de cours) 
1) Un modèle à p variables a été estimé donnant un R? noté R?(p). Une nouvelle variable 
explicative est rajoutée au modèle précédent, après estimation un nouvel R? noté R?(p+ 1) 
est obtenu. 
A. R?(p + 1) est toujours plus grand que R?(p), 
B. R? (p + 1) est parfois plus petit parfois plus grand, cela dépend de la variable rajoutée, 
C. R?(p+ 1) est toujours plus petit que R? (p). 
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2) Le R? permet-il de sélectionner des modèles ? 

A. jamais, 

B. toujours, 

C. oui si les modèles admettent le même nombre de variables explicatives. 
3) Vous travaillez avec un modéle restreint € par rapport au vrai modéle (des variables sont 
omises), l'estimateur Be de Be dans ce nouveau modèle est : 

A. toujours biaisé, 

B. parfois biaisé, 

C. jamais biaisé. 


Exercice 7.2 (Analyse du biais) 
Démontrer la proposition 7.1 p. 162. 


Exercice 7.3 (f Variance des estimateurs) 
Démontrer la proposition 7.2 p. 163. 


Exercice 7.4 (Choix de variables) 

Nous considérons le modèle de régression multiple avec 4 variables explicatives. Nous avons 
fait toutes les régressions possibles. 

Les résultats numériques avec n = 10 et entre parenthèses la valeur absolue de la statistique 
de test se trouvent dans le tableau ci-dessous. 

Prenez pour fractile de la loi de Student (ddl < 10) la valeur 2.3. 


modèle R? AIC BIC 
M1 Y = -1.24(3.3) + 0.12(41.9)21 .996 -2.18 -2.12 
M2 Ê = 2.114206) + 0.345.372 .967 -0.20 -0.14 
M3 Ÿ = —38.51(9.2) + 0.52(2.5)T3 .952 0.18 0.24 
M4 Ê = —53.65(14.8) + 0.66(18.6)T4 .977 -0.58 -0.52 
M12 y= —1.59(2.6) ar 0.13(6.9) v1 Es 0.04 (0.7) v2 -996 -2.06 -1.97 
M13 Ê = 1.40(0.3) + 0.128.171 — 0.04(0.5)T3 .996 -2.03 -1.94 
M14 Y = —8.37 (1.0) + 0.10(5.6)21 + 0.09(0.9)%4 .996 -2.09 -2.00 
M23 Y = —13.29(1.3) + 0.210.672 + 0.19(1.5)23 .975 -0.27 -0.18 
M24 Ê = —31.2¢3.2) + 0.14(2.4)22 + 0.39(3.5)24 .988 -0.99 -0.90 
M34 Ÿ = —58(8.21) — 0.160.723 + 0.873) 24 .979 -0.46 -0.37 
M123 Ý —0.95(0.2) + 0.14(5.6)%1 — 0.04(0,7)%2 — 0.03(0.5)%3 996 -1.90 -1.78 
M124 Ÿ = —7.4(0.8) + 0.11(3.5)21 = 0.03 (0.5) v2 T 0.07 (0.6)£4 .996 -1.93 -1.80 
M134 Ý = —12.7(1.9) +0.1(7.s)£1 — 0.19(2.5)£3 +0.31(2.6)%4  .998 -2.59 -2.47 
M234 Ý = —34.9(4 2) + 0.16(3.3)£2 — 0.3(2)£3 — 0.T(3.8)£4 .993 -1.30 -1.18 
M1234 Ý = —13.5(1.8) + O.l(a.rti + 0.02(0.3)£2 .998 -2.40 -2.25 


1) Choisissez un modèle en vous basant sur les critères AIC et BIC. 
2) Faire de même en utilisant le R2 et des procédures de tests (vous prendrez comme 


—0.2(2.2)%3 


+ 0.34(2.3)T4 


fractile de la loi à Student 2.3). 


Exercice 7.5 (Utilisation du R?) 


Soit Z(n,q) une matrice de rang q et soit X(n p) une matrice de rang p composée des q 
vecteurs de Z et de p — q autres vecteurs linéairement indépendants. Nous avons les deux 
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modèles suivants : 
Y = ZB+eE 
Y = XB +n. 


Comparer les R? dans les deux modèles. Discuter de l'utilisation du R? pour le choix de 
variables. 


Exercice 7.6 (Cas orthogonal) 
Nous allons supposer que les variables explicatives sont orthogonales et de norme unité. La 
matrice X est donc une matrice orthogonale et X’X = Ip. Nous supposerons également o° 
connu. 

1) Montrer que l'estimateur des moindres carrés s'écrit 


B= X'Y=pB+Xx'e. 


2) Montrer que la somme des résidus vaut 
n Pp 
SCR =|Y- xô? = Xv -Y fé. (7.4) 
i=1 j=1 


3) Supposons que nous estimons un modèle €. Montrer, en utilisant l’orthogonalité des 
colonnes de X, que le vecteur des estimateurs obtenus par MCO avec ce modèle (noté 
Be) sont les coordonnées € du vecteur des estimateurs obtenus par MCO B obtenu avec le 
modèle complet à p variables. 
4) Supposons que le passage du modèle £ au modèle € + 1 consiste à ajouter la variable J. 
Montrer, en utilisant (7.4), que quand nous utilisons les critères de choix de modèle basés 
sur la pénalisation de la vraisemblance (AIC, BIC...), nous choisissons le modèle € + 1 (ou 
nous ajoutons la variable l) si 
52 
Bt > 2f(n) 
5) Montrer que N = suit une loi y?(1). Déduire (avec l’aide de R) que 
le test basé sur la statistique N conduit à ajouter la variable | (avec une erreur de première 
espèce de a = 5%) si 


SCR(£)-SCR(E+1) 
oe 


A2 
ô? 
o2 


6) En utilisant l'approximation suivante Sore) x o?, montrer qu'utiliser le R2 pour savoir 


> 3.84 


si nous ajoutons la variable l revient regarder si on a bien (approximativement) 


a 
52 >1 
7) En utilisant le fait que o? est connu, nous avons que 
SCR(E 
op(¢) = SRO _ » 4 28. (7.5) 


Montrer qu'utiliser le Cp pour savoir si nous ajoutons la variable l revient à regarder si on a 


8) Construire un algorithme simple (n'utilisant que l'estimation par MCO dans le modèle 
complet à p variables) afin de sélectionner les variables avec l'un des critères précédents. 
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7.7 Note: C, et biais de sélection 


Dans la section consacrée au C,(&), nous avons insisté sur le caractère non aléatoire de 
Px, et évoqué le probléme de biais de sélection. L’objectif de cette note est, au travers 
d’un exemple simple, de mettre en évidence cette notion. 

Soit X1, X2,..., Xp des variables orthogonales de norme unité. La matrice X est donc 
une matrice orthogonale et X'X = Ip. L’estimateur des moindres carrés s’écrit alors 


A 


Ê = (XXV NY ax Xe) = 5+ X'e. 


Si Phypothése de normalité des résidus est vérifiée, alors X'e suit une loi normale de 
moyenne nulle et de variance o?1,. Nous avons alors 8 ~ M (B, oI n). Pour reformuler le 
Cp nous devons nous intéresser à la valeur de SCR (€) : 

SCR(E) = |Y- Yel? = ||Px1¥ + Px¥ — Px,Y ||? 
Px Y ||? + |Px¥ — Px,¥||? = (n — p)ô? + ||Px¥ — Px, ¥|? 
= (n—p)ée?+ [Pet Patt PP = Px, Y ||’. 


Notons £ l’ensemble des indices des variables non incluses dans le modèle £ (le complé- 
mentaire par rapport à {1,2,...,p}), nous avons, en nous rappelant que Px Y = XB et 
que toutes les variables sont orthogonales : 


SCR(E) = (n= p)ô? + || Px} XÊ + Pxe¥ — PxY |? = (n — p)ô? + || Xô? 
= (n—p)é? + bX; XeB; 
= (np +X À. (7.6) 


GEE 


La définition du C,(£) (équation 7.2) donne 
ô” Cp(€) = SCR(E) — (n — 2161)”. 


En remplaçant dans cette équation la quantité SCR(€), nous avons 


GC) = (n-p)6 +Y ô? -(n-—2/61)6 


JFE 
= S08 + le -p)6° 
JFE 
P 
= DB -N Ê; - pô? +216? 
j=1 JEE 


Nous avons pô? que nous mettons dans la première somme de p termes et 2| jô? que 
nous mettons dans la seconde somme de |E| termes. Cela donne 


P 


êle = X8 -37)- DUB - 20°). 


j=l GEE 
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Choix de variables, || fixé 


Si nous souhaitons, grâce au critère du 6? Cp, sélectionner parmi les ensembles € de 
cardinal |€| fixé, nous allons donc devoir chercher l’ensemble de SCR(£) minimum, soit 
celui dont les normes Be j € €, sont maximales (ou minimales dans le complémentaire). 
La procédure conduit donc à sélectionner les |€| variables dont les coefficients estimés 
sont les plus grands en valeur absolue. 


Choix de variables, || non fixé 


Maintenant, nous considérons que le cardinal || est variable. Si ce cardinal est 1, alors 
nous choisissons la variable dont le coefficient estimé est le plus grand et le C,(1) vaut 


P 
Cp(1) = D (87 — 6) — (By — 26°), 


j=l 


ou Bay est le coefficient associé à la variable admettant la plus grande valeur des Bi. 
Maintenant, comme le || est variable, nous souhaitons savoir si des ensembles € de 
cardinal 2 conduisent à une diminution du Cp . Nous savons que l’une des deux variables 
est la même que celle sélectionnée quand |€| = 1. La deuxième variable est ajoutée au 
modèle optimal de cardinal || = 1. Si l’ajout de cette variable permet une diminution du 
6° Cp, alors le modèle optimum de cardinal 2 est préféré à celui de cardinal 1. Le Cp(2) 
vaut 


p 
Cp(2) = XC (67 — 6?) — (Êy — 267) — (Bey — 267). 


j=1 


La différence des Cp vaut 


Ai-2 = Cp(1) Co(2) = Ba 26°. 


Si Ai_2 > 0, c’est-à-dire Bey > 267, alors le modèle de cardinal 2 est préféré à celui de 
cardinal 1. De même pour le passage du cardinal 2 à celui du cardinal 3; à chaque fois la 
différence de 6? Cp diminue car par définition Bey diminue quand j augmente. Au final, 
le modèle retenu sera celui dont les carrés des coefficients estimés sont tous plus grands 
que 267. 


Espérance du C, 


Si maintenant nous nous intéressons à ce que donne cette sélection en moyenne, calculons 
l'espérance de 6? CL. Simplifions les calculs en supposant tous les 8; nuls. Nous savons 
que E(6?) = 6? +o7 = o° et que 6” est un estimateur sans biais de o°. Le premier terme 

+ (67-67) a une espérance nulle. Si nous nous intéressons au second terme FF ee (6e 


267), nous savons que tous les B; sélectionnés dans € sont tels que ĝ? > 267, donc ce 
terme est toujours positif et donc son espérance aussi. En conclusion, 6? Cp est donc en 
moyenne négatif, alors qu’il est censé donner une idée de la qualité d’approximation via 
PEQM, qui est une quantité positive! Le Cp va donc sous-estimer en moyenne VEQM, 
il sera trop optimiste. 
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Espérance de la taille du modèle |€| 


Analysons en moyenne la dimension du modèle sélectionné par Cp. La taille |Ẹ| est le 
nombre de coefficients B; qui sont tels que b? > 267, ce qui s’écrit : 


P P 
E(£|) D EC (252023) = ED (92 /4252)) 
j=1 j=1 


= pPr(ĝ}/ô° > 2) = pPr(|ĝ;/ô| > V2) = 2pPr(8;/6 > V2), 


avec Pr(.) dénotant la probabilité. Or Ê; ~ N(0,07), (n — p)é?/o? ~ x?(n — p) et ces 
deux variables aléatoires sont indépendantes, donc 08;/é ~ t(n — p) et donc E(|é|) = 
2p tag (n — p) > 0. Si nous supposons pour fixer les idées que 6? = 0°, nous avons 
alors une loi normale centrée réduite et E(|é|) = 2p zyq © 0.16p. Rappelons que tous 
les coefficients B; sont supposés égaux à 0 et donc que la taille [é| idéale est 0. La taille 
sélectionnée est donc en moyenne toujours trop grande. 


Conclusion 


Le C,, quand il est utilisé de manière classique sur le même jeu de données que celui 
utilisé pour estimer les paramètres, conduit à sélectionner les variables associées à de 
grandes valeurs de paramètres. Lorsque l’on considère la moyenne sur tous les échantillons 
sur lesquels on applique la procédure de sélection/estimation, les variables sélectionnées 
seront celles qui auront des valeurs élevées pour leur coefficient. Si l’on applique la même 
procédure d'estimation, suivie de la sélection du modèle par Cp, alors en moyenne cela 
conduit à des modèles dont les coefficients sont trop élevés en valeur absolue. Certains 
cas de figure vont être exclus par la procédure de sélection. Nous ne pourrons jamais 
obtenir de modèle avec la variable 1 sélectionnée quand le coefficient estimé est inférieur 
à celui de la variable 2 (fig. 7.13). L’exclusion de ces cas conduit à des coefficients biaisés 
vers de plus grandes valeurs absolues. Ce biais est quelquefois appelé biais de sélection 
(Miller, 2002). 


Echantillon 1 B 1 


Be By 


Population By Bo 
| 
l 
| 
Echantillon 2 
l 


Fig. 7.13 — Biais de sélection dans un modèle à une variable sélectionnée. Le 
coefficient encadré est celui de la variable sélectionnée. 


Ces conclusions sont valides dans le cas où les variables sont orthogonales. Pour généra- 
liser ces résultats, l'équation (7.6) devient (n — p)ô? + || Px, XÊI|?, ce qui conduit, avec 


la définition de 6? Cp, à l'équation suivante : 


6 Cp = ||P, XÊ]? + (2|é| — pe’. 
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Ici la matrice X n’est pas orthogonale, donc les normes des variables explicatives ne 
sont pas toutes identiques et égales à 1, en d’autres termes les échelles (ou dispersions) 
sont différentes. De plus, les variables explicatives sont peut-être corrélées. La sélection 
par le Cp va donc favoriser les variables qui mènent à un terme || Px. XB]P? faible. Ceci 
dépend donc de la valeur des coefficients estimés, de la norme de la variable mais aussi 
des corrélations qu’une variable entretient avec les autres variables. Ainsi prenons le cas 
où toutes les variables explicatives ont la même norme et deux variables, numérotées 
par exemple 3 et 4, sont très fortement corrélées. Si l’on en prend une, par exemple 
la 3, dans l’ensemble €, alors pour la seconde, même si son coefficient Ba est élevé par 
rapport aux autres, la projection dans l’orthogonal de S(X¢) de X4 Ba sera de norme peu 
élevée puisque X3 et X4 sont très corrélées. Ainsi la variable 4 ne sera pas forcément 
sélectionnée. 


Chapitre 8 


Régularisation des moindres 
carrés : ridge, lasso, 
elastic-net 


8.1 Introduction 


Dans ce chapitre, nous nous intéressons au probleme de régression sous contrainte 
de norme. Rappelons que le problème initial des moindres carrés consiste à chercher 
le (vecteur de) coefficient(s) 6 qui minimise le critère des moindres carrés : 


B = argmin ||Y — X6||?. (8.1) 
BERP 


Afin de pouvoir résoudre ce problème, nous avons introduit l'hypothèse Hı : la 
matrice X est de plein rang. Cette hypothèse permet alors de trouver une solution 
unique au problème posé, à savoir Ê = (X'X)~1X’Y. 

Dans certains cas, le problème est mal posé et non résolvable en l’état. Par exemple, 
si p > n alors il y a plus de coefficients à estimer que d'observations et la matrice 
X nest plus de plein rang (hypothèse Hı non vérifiée). Dans ce cas, l'inverse 
(X’X)~! n'existe plus et il n’existe plus de solution unique au problème des MCO 
(8.1). On est confronté au même genre de problème lorsqu’au moins une variable 
explicative est combinaison linéaire des autres : 


2j : Xi => Xi, a,ER 
4j 


Nous avons vu dans la section 4.1 qu’une solution à ce problème était d'augmenter 
artificiellement la diagonale de X’X pour obtenir l’estimateur ridge 


Bantex EAN LE 
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ou À > 0 est un paramètre à sélectionner. Nous avons également montré que 
l’estimateur ridge est solution du problème de minimisation du critère des moindres 
carrés pénalisé par la norme de £ : 


Briage(A) = ain {IY — Xl]? + AlB}. 
ERP 


Il est bien entendu possible d’utiliser d’autres termes pour régulariser le critère des 
moindres carrés. D’une manière générale, étant donné J(.) une fonction de régu- 
larisation convexe à valeurs positives et À un réel positif, on cherche à minimiser 


IY — X81? + AJ(8). (8.2) 


Le paramètre À assure la balance entre la régularité de la solution (faible valeur 
de J(B)) et son adéquation au problème initial posé (faible valeur de ||Y — X 6||?). 
Le choix de À et de la fonction de régularisation J(.) vont bien entendu se révéler 
cruciaux pour les performances des estimateurs. Comment choisir la fonction de 
régularisation et comment choisir À? 
Tout d’abord il est important de rappeler ici que le problème de minimisation des 
MCO pénalisés (problème dual) : 
in ||Y — XB||? + AJ 

min | Blt + AJ(B) 
est équivalent par dualité ! au problème de minimisation des MCO sous contraintes 
(problème primal) : 

min IY — XB81F. 

BERP:J(B)<6 
Ainsi l’une ou l’autre des formulations est équivalente. [llustrons maintenant gra- 
phiquement le choix de la fonction J(.) via la formulation « MCO sous contraintes ». 
Choisissons un modèle admettant deux variables explicatives X, et Xə et donc 
deux coefficients 51 et Bo : 


Y = XB + € = X16, + X2b2 + E. 


Les données figurant dans le tableau 8.1 permettent de calculer B qui vaut ici 
(1, 1)’ et nous pouvons obtenir aussi la représentation graphique de la figure 8. 1a. 
Le plan de S(X) (vu de dessus) est donné dans la figure 8.1b. 


Y X Xe 
2 1 1 
2 0 2 
1 0 0 


Tableau 8.1 — Données pour l'illustration graphique 3D. 


1. Le problème primal est réalisable, avec une valeur finie; J() < 6 est un sous-ensemble 
convexe de RP d'intérieur non vide; sur ce sous-ensemble, les fonctions 8 > ||Y — XB||? et J() 
sont convexes (voir Bertsekas 2016, p. 589). 
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15 20 25 


1.0 


-0.5 0.0 0.5 


-05 00 05 10 15 20 5 -0.5 0.0 0:5 1:0 15 2.0 25 
(a) Représentation de Y, PxY = XBet£ (b) Représentation du plan S(X). 
Fig. 8.1 — Représentation graphique des données du tableau 8.1. 


Nous allons considérer pour la fonction J(8) une norme /? au carré (i.e. J(B) = 
1817 = 57, 8?) qui correspond à la régression ridge et une norme l! (i.e. J(B) = 
ll, = D, ll) qui correspond à la régression lasso. Représentons ces deux 
possibilités pour J(B), avec une norme de 1 et de 0.5 dans chaque cas (donc 1 et 
0.25 pour la norme /? au carré) dans le sous-espace S(X). Les contraintes sur 3 
engendrent un sous-espace S(X) contraint. Dans cet exemple nous considérerons 
que B des MCO ne satisfait pas la contrainte sinon bien évidemment la solution 
du problème est B ! 


a 4 X |, a 4 
o XB 
o 4 o + 
X1 

74 17 
a | a | 
| T T T T T ! T T I T T 

-2 -1 0 1 2 -2 -1 0 1 2 
(a) J(B) est une norme l? au carré (b) J(8) est une norme l! 


Fig. 8.2 — Représentation du sous-espace S(X) avec contraintes de norme .5 et 1. 


Dans le cas de la régression ridge (fig. 8.2a) nous voyons que parmi les points 
qui satisfont la contrainte (i.e. tous les (81, 82)" à l’intérieur ou sur les bords de 
Vellipse), le plus proche de X B (il s’agit de l’estimateur ridge) n’a aucune de ses 
deux coordonnées nulles, à la fois pour la contrainte 1 et pour la contrainte 0.25. 
Par contre, dans le cas de la régression lasso (fig. 8.2b), nous voyons que parmi 
les points qui satisfont la contrainte (i.e. à l’intérieur ou sur les bords du losange), 
le plus proche de X B (il s’agit de l’estimateur lasso) a pour coordonnées dans le 
repère X1, X2 (0,1)’ ou (0,0.5)’ selon la contrainte envisagée. Dans ces deux cas, 
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la variable X; a pour coefficient 0, elle n’est pas sélectionnée. Seule une contrainte 
plus grande que 1 permettrait à 3) d’être non nul. Ainsi, le choix de J(.) permet 
de sélectionner ou non des variables donnant ainsi des modèles d’interprétations 
différentes. 

Les fonctions de régularisation les plus utilisées pénalisent les vecteurs 6 qui ont 
de trop fortes coordonnées. Elles sont basées sur des normes ou des mélanges de 
normes. 


— Régression ridge, pénalité 1? : J(8) = ||6||? = 375-157 : pénalise beaucoup 
les vecteurs 5 qui présentent de fortes coordonnées. 
— Régression lasso : J(8) = ||B]T = 24-1 |8;| : pénalise les vecteurs 6 qui 


présentent de fortes coordonnées et conduit aussi à une sélection de variables 
(voir discussion ci-dessous). 

— Régression elastic-net : J(8) = al|B|[? + (1 — a)||8||? qui permet d’avoir un 
compromis entre les deux solutions ci-dessus, au prix d’un coefficient supplémen- 
taire à choisir a. 

— Régression group lasso : les coefficients sont naturellement regroupés en K 
groupes distincts et on souhaite retenir tout un groupe ou l’éliminer mais on 
ne souhaite pas éliminer qu’une variable dans un groupe. La pénalité est alors 
J(8) = SE, Akl |l2 où 8 est sous-vecteur des coefficients correspondant 
au groupe k. 

— Régression fused lasso J(8) = al] G\|? + (1 — a) Si |8j+1 — B;l : permet de 
sélectionner à la fois un certain nombre de variables mais aussi de limiter les 
variations entre coefficients de variables consécutives. 


8.2 Problème du centrage-réduction des variables 


Nous avons toujours considéré jusqu’à présent le modèle général 
Y=XB+E 


et avons supposé que l’une des variables explicatives pouvait être la constante 1. 
Jusqu'à présent cette variable avait le même rôle que les autres variables explica- 
tives potentielles. Le rôle de l’intercept est différent et il est d’usage de l’inclure 
dans le modèle sauf situation très particulière. Pour cette raison, nous allons dé- 
sormais considérer le modèle suivant 


Y = yl+XB+e. (8.3) 


La valeur d’un coefficient 8; dépend de l’échelle des mesures de la variable expli- 
cative associée Xj : par exemple, 5; sera différent si la variable est mesurée en 
grammes ou en kilogrammes. Lors du calcul de la norme, afin de ne pas pénaliser 
ou favoriser un coefficient, il est souhaitable que chaque coefficient soit affecté de 
manière « semblable ». Une manière classique de réaliser cet équilibre consiste a 
centrer et réduire toutes les variables de X. Une variable centrée-réduite X j issue 
de la variable X; s’écrit 


Xj = (X;-%;1)/6x,, 
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a Š ae i . nm ae A2 ages . 
où x; est la moyenne empirique de X; (i.e. 3';_, x;/n) et 6%, une estimation de 


la variance (par exemple 3%, (xij — Z;)?/n). La matrice X contiendra donc des 
variables centrées réduites. Le modèle (8.3) devient alors 


Y = j1+XB+e. (8.4) 


Le coefficient ji associé à la variable 1, appelé coefficient constant (ou intercept en 
anglais), est un coefficient qui joue un rôle particulier. Il permet aux prévisions du 
modèle envisagé de se situer autour de la moyenne de Y, de localiser le problème. 
Puisqu’elle sert à localiser le problème, cette variable n’est donc pratiquement 
jamais inclus dans la contrainte de norme. 

Les variables X sont centrées (et réduites), elles sont donc toutes orthogonales 
à la variable 1. Comme la variable 1 est exclue de la contrainte et qu’elle est 
orthogonale aux autres, son coefficient estimé par une régression sous contrainte 
type lasso ou ridge est simplement la moyenne empirique des observations de Y : 
hi = ÿ (voir l'exercice 8.6 p. 212). 

Après avoir estimé les paramètres avec 1 et X et Y, il est possible de prévoir une 


nouvelle valeur 7,41 = (@n+1,1,°°* ;%n+1,p) grace à la formule suivante : 
= x =p \ à 
AD _ 2 n+1,3 k 
E DD ( - ) By (8.5) 
OX; 
j=1 7 


Remarquons que cette prévision peut s’écrire comme une combinaison linéaire des 
variables initiales 


p à p 4 
À - _ À; Ê; 
Inti = i- 9 ts t) tnag (8.6) 


j=1 j j=l i 


A partir de maintenant et afin d’avoir les notations les plus simples possibles, nous 
considérerons que les variables de la matrice X sont centrées et réduites et que le 
modèle s’écrit (on enlève les « tildes ») : 


Y = pl+XBt+e. (8.7) 


8.3 Ridge, lasso et elastic-net 


La plupart des pénalités utilisées pour régulariser le critère des moindres carrés 
sont basées sur les normes 1 et 2. Ce sont des variantes des estimateurs ridge et 
lasso. Nous présentons dans cette partie les principales différences et similitudes 
entre ces deux approches. Pour un À > 0 donné, considérons les problèmes de 
minimisation suivants : 


(Â, ridge(À)) = argmin {|Y — pl — X£]? + A8[?} 
HER, BER? 
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et 

(A, Prasso(A)) = argmin {||Y — ut — XGI? + AllBll1} - 

HER, BERP 

Les variables X; étant centrées (réduites), elles sont orthogonales au vecteur 1, 
l’estimateur de u ne dépend pas de À et vaut toujours ÿ (voir exercice 8.6). 
Rappelons les propriétés principales de l’estimateur des MCO (non pénalisé) et de 
Vestimateur ridge. Ce dernier a été introduit en section 4.1, p. 73 avec une formule 
explicite : 


Briage(À) = (X'X + M) X'Y. (8.8) 


i) Existence et unicité : l'ajustement (via les MCO) Ÿ = PxY + y1 existe et 
est unique et l’on peut toujours trouver un (et surtout plusieurs) B qui satisfont 
Ÿ = XB+ yl. Si l’hypothèse Hı est vérifiée, alors le vecteur B est unique et nous 
avons la formule explicite Ê = (X'X)~1X'Y. 

Pour la régression ridge, grâce à la formule (8.8), nous avons, dès que À > 0 fixé, 
existence et unicité de l’estimateur ridge (il s’agit du résultat d’une fonction de 
À), sans avoir recours à l’hypothèse Hı. Cependant Veiage(A) =X Basel À) + yl 
n’est pas une projection (voir exercice 8.2). 


ii) Nullité de toutes les coordonnées du vecteur des coefficients : pour les MCO, 
sauf cas particulier, il n’y a aucune raison que toutes les coordonnées soient nulles. 


Il en est de même pour l’estimateur ridge, dès que À > 0 fini, nous avons Bridge (A) x 
0 (sauf dans le cas très particulier ou X’Y = 0). 


iii) Biais : ’estimateur des MCO est sans biais et l’estimateur ridge est biaisé. 


iv) Variance : nous avons déjà calculé la variance de l’estimateur des MCO et de 
celui de l’estimateur ridge (pour ce dernier voir équation (4.6) p. 77). Nous avons 


montré que V(Êmco) > V(Briage). 


Dans le cas de la régression lasso, À étant considéré comme fixé, l’estimateur (ou 
les estimateurs s’il n’est pas unique) est l’argument du minimum de la fonction 
h(B) = |Y — u1 — XB||?+A|8]|11. Intéressons-nous au point i) Existence et unicité. 
Cette fonction est la somme de deux fonctions convexes (puisque À > 0 est fixé) et 
elle est donc convexe. Nous en déduisons qu’elle a donc un minimum. De plus, l'en- 
semble des points qui réalisent ce minimum noté { Bias) E est non vide, assurant 
l'existence. 

Pour les questions d’unicité, nous renvoyons le lecteur vers l’exercice 8.7, mais les 
conclusions sont identiques aux MCO : X Biase) est unique mais il faut ajouter 
Vhypothése Hi : Xe est de plein rang, pour garantir l’unicité du vecteur ÊÎiasso( A) 
(avec Xe est la matrice X limitée aux colonnes j € {1,...,p} pour lesquelles 
|z;| = À, avec z € Og vérifiant l’équation (8.9)). 

Ensuite il serait pratique d’avoir une formule donnant directement Piasso; comme 
celle (8.8) pour Bridge (ou celle de 8), ce qui nous permettrait de faire les calculs et 
de déduire les propriétés statistiques iii) et iv) et de conclure sur ii). Rappelons que 
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pour obtenir cette dernière équation, il suffit de partir de la fonction à minimiser, de 
la dériver et d’annuler sa dérivée. Pour le lasso, la fonction h n’est pas différentiable 
pour tout 8 (prendre exemple en 0, € RP). Ce problème peut être contourné en 
prenant le sous-différentiel mais l’équation obtenue ne permet pas de trouver i 
avec une formule explicite (sauf dans le cas orthogonal) et un algorithme itératif 
doit être mis en œuvre. 


Le plus populaire, introduit par Fu (1998), est un algorithme de descente coor- 
donnée par coordonnée. Comme nous allons le voir, si nous fixons toutes les coor- 
données de 8 sauf la j°, nous pouvons trouver facilement une écriture explicite de 
cette coordonnée [Btasso(A)] ; en fonction des données et des autres coordonnées. 
L’idée de cet algorithme est alors d'effectuer cette minimisation tour à tour sur 
chacune des coordonnées j et de s’arrêter quand l'algorithme ne progresse plus. 
Montrons donc que, si nous supposons que toutes les coordonnées de B sauf la j° 
sont fixées, alors nous avons une formule explicite pour celle-ci. Remarquons que 
B;  h(B) est convexe et en plus dérivable dès que 6; 4 0. Nous avons alors, en 
laissant de côté la notation Bisel à) pour une plus légére B, que la dérivée (par 
rapport à B;) est nulle en Ê; : 


SX NAME ES =0 si 6,40. 


IA 13; 


En notant Rj = X; (Y — yl - Yu, Êr Xp), nous obtenons 


2R; = 2b; XiX; + ae si Êj £0. 
J 


Puisque À > 0 et X EX j > 0, nous en déduisons que le signe de R; est le même que 


à ô ĝ R; . 
celui de 8; et nous pouvons donc remplacer A par ; FR p ce qui nous donne 
$ “i 


À R; 1 , à 


2|R;| 


Puisque B; est du même signe que Rj, afin de garantir cette condition dans l’équa- 
tion précédente, nous devons considérer uniquement la partie positive du facteur 
le plus a droite : 


X R; 1 
bj = (à )+ 
7 X; Xj 2|R;| 


Nous obtenons donc l’algorithme 1. 
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Algorithme 1 Régression Lasso par descente coordonnées par coordonnées (avec 
les variables X centrées réduites). 


1. Initialisation : fixer 6° € R?, k = 0. 
2. Répéter 


° Pour j = 1... ,p faire : 
BRL ill gay aver Ry = XY -71 Das, BEX) 
e ke k+l 


jusqu’à Bt! & BF. 


Une autre possibilité consiste à utiliser une version modifiée de l’algorithme Lars 
(voir section 8.6, p. 213). 

Rappelons que l’estimateur lasso est l’argument du minimum de la fonction. Pour 
une fonction convexe x > f(x), on a alors l’équivalence suivante : 


& € argmin f(x) = 0 € OF (2) 
æEeR? 


qui, appliquée à notre cas, nous indique qu’en un des estimateurs lasso iasso(A), 
le sous-différentiel de h, noté Ah(Biasso(A)), contient le vecteur 0 € R”. 

En utilisant le fait que le sous-différentiel d’une somme de deux fonctions convexes 
est la somme des deux sous-différentiels et que le sous-différentiel d’une fonction 
différentiable (i.e. la fonction 8 + hi(8) = |Y — u1 — XB||?) est le singleton limité 
au gradient (donc ici 0h1(8) = {Vh1(8)} = {-2X'(Y — u1 — XB)}), nous avons 
alors que notre condition s’écrit 


0 € {-2X'(Y — pl — X Biasso(A))} + 04(Brasso(À)) 


où q(B) = Al|G||1. Enfin, en utilisant le fait que le sous-différentiel de cette norme 
est calculable comme 


z € 0q(8) & 
nous avons donc qu’une condition nécessaire et suffisante pour que Bisset) soit 
un argument du minimum de h s’écrit 

—2X'(Y — pl — X Brasso(A)) + z = 0 (8.9) 


avec z € 0q(B). Malheureusement, et comme annoncé, cette équation ne donne pas 
une écriture explicite de Biasso(A). Cependant, nous en déduisons tout de même un 
fait très intéressant sur le lasso. De l’équation (8.9), nous avons, avec z € 0q(B) : 


X'X Biasso(A) = 2X'Y — z, 


Régularisation des moindres carrés : Ridge, Lasso et elastic-net 199 


ce qui en prémultipliant par Br eso (A) donne 
0< Biasso A) X’ X Passe (À) = Êl sso (AN2 X'Y = 2). 


Si nous appelons £ l’ensemble des variables explicatives pour lesquelles le coefficient 
de Blhsso(à) n’est pas nul, nous avons alors en remplaçant z par sa valeur : 


0 < 5 [Piasso (A)];(2[X'Y]; = Asign([biasso(A)];))- 
JEE 

Pour que cette condition nécessaire soit vérifiée, il faut donc absolument que 
— si [Biasso(A)]; est positif alors 2[X'Y]; > Asign([Biasso(A)];) > 0; 
— si [Blasso(A)]; est négatif alors 2[X'Y]; < Asign([Biasso(A)];) < 0. 
En prenant le plus grand élément en valeur absolue du vecteur X'Y (noté ||X’Y ||. = 
max; ||X’Y];|), nous avons que si À > 2||X’Y'||.. alors aucun des deux points 
ci-dessus ne peut être vérifié, signifiant que pour À > 2\|X’Y||,. nous avons 
Basso (À) = 0. 
En conclusion, l’homologue du point ii) pour le lasso est le suivant : si À > 
2\|X'Y ||. alors le vecteur Pisses) a toutes ses coordonnées nulles, aucune va- 
riable n’est sélectionnée. 
Dès que la valeur de À passe sous ce seuil, la première variable, celle dont l’indice 
correspond à ||X’Y'||,,, est ajoutée au modèle. Rappelons que si les variables de X 
et Y sont centrées réduites, X'Y représente à 1/n près la corrélation entre chaque 
variable de X et la variable Y. Cela correspond dans ce cas à la variable expli- 
cative la plus corrélée avec Y, c’est-à-dire la même variable ajoutée que dans une 
sélection ascendante partant d’un modèle avec juste la constante. 
Enfin pour les propriétés statistiques iii) et iv), comme nous n’avons pas de formule 
explicite pour l’estimateur lasso (sauf cas orthogonal), il est plus difficile de les 
obtenir. Nous renvoyons à Giraud (2014) pour plus de précisions. 


8.3.1 Régressions avec la package glmnet 


On rappelle que, pour a € [0,1] et À > 0 fixés, les estimateurs elastic net sont 
définis par 


(à, B(A)) = argmin {|Y — ui — X8|? + AJ(8)} 
uER,BER? 


avec 
J(8) = al Bi + (1 = MEN. 


Le paramètre a régule le compromis entre les pénalités lasso et ridge : pour a = 1 
on obtient les estimateurs lasso tandis qu’on aura les estimateurs ridge pour a = 0. 
Le package glmnet permet de calculer et de visualiser les estimateurs obtenus. Nous 
le présentons à travers l’exemple des données ozone : 


“ > ozone <- read.table("ozone.txt",header=TRUE,sep=";",row.names=1) 
> ozone <- ozonel, -c(11:12)] 
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Il n’est pas possible d’utiliser de formule dans la fonction glmnet pour spécifier 
la variable à expliquer et les variables explicatives. Il faut renseigner les variables 
explicatives dans une matrice. On utilise souvent la fonction model.matrix pour 
obtenir cette matrice : 


> ozone.X <- model.matrix(03 ~ ., data = ozone)[,-1] 
> ozone.Y <- ozone$03 


Si, parmi les variables explicatives, il y a des variables qualitatives, la fonction mo- 
del.matrix fait un codage disjonctif des variables qualitatives. Ce codage remplace 
donc une variable admettant J modalités en J variables binaires. Pour chaque va- 
riable, la somme des variables issues du codage donne le vecteur constant dont 
toutes les valeurs valent 1. La fonction model.matrix supprime la colonne as- 
sociée au codage de la première modalité afin qu’il n’y ait pas de problème de 
colinéarité. 


Par défaut, la fonction glmnet choisit une grille de valeurs possibles pour À et 
calcule les estimateurs pour chaque valeur dans la grille. Le choix de la pénalité 
s’effectue à travers l’argument alpha de glmnet. On pourra par exemple obtenir 
les estimateurs ridge, lasso et elastic net (avec a = 0.5) avec les ordres suivants : 


> ridge <- glmnet (ozone.X, ozone.Y, alpha = 0) 
> lasso <- glmnet(ozone.X, ozone.Y)#par défaut alpha=1 
> en <- glmnet(ozone.X, ozone.Y, alpha = 0.5) 


Il est souvent d’usage de représenter les valeurs des estimateurs en fonction de À ou 
de la norme ||(A)||;. Un tel graphe est appelé chemin de régularisation. On peut 
par exemple visualiser les chemins de régularisation des estimateurs précédents a 
l’aide des commandes suivantes (voir figure 8.3) : 


plot (ridge ,main="Ridge", ylim=c(-2,2)) 

plot (ridge, xvar="lambda" ,main="Ridge", ylim=c(-2,2)) 
plot (lasso,main="Lasso" ,ylim=c(-2,2)) 

plot (lasso, xvar="lambda" ,main="Lasso",ylim=c(-2,2)) 
plot(en,main="Elastic net" ,ylim=c(-2,2)) 

plot (en,xvar="lambda" ,main="Elastic net",ylim=c(-2,2)) 


MENMEN NIM MV 


Régularisation des moindres carrés : Ridge, Lasso et elastic-net 201 


9 9 o Ridge , 9 9 9 o Ridge, 9 9 
aJ a 
a] | 
S S 
4 a 
2- 2 
E bsi 
3 2 
[s] © 
OL OL 
17 I] 
4 a4 
0 2 4 6 8 10 2 4 6 8 10 
L1 Norm Log Lambda 
Lasso Lasso 
0 2 4 7 9 8 8 9 9 8 3 
of ~ 
27] a`] 
= £ 
a 8 
Bo 2 od 
8 8 
oan om 
17 17 
H 4 
6 3 4 6 8 10 12 14 “4 “2 0 2 
L1 Norm Log Lambda 
Elastic net Elastic net 
0 3 5 7 9 9 8 9 9 8 7 5 
«4 ad 
271 a7] 
£ = 
5 : 
3 2 
= oO E e 
5 z 
O © 
Om OL 
17 17 
H 4 
6 2 4 6 8 TO T2 14 = 0 2 
L1 Norm Log Lambda 


Fig. 8.3 — Chemins de régularisation ridge (gauche), lasso (milieu) et elastic net 
(bas) en fonction de ||G(A)||1 (gauche) et log(A) (droite). 


Les graphes de gauche représentent les valeurs des coefficients en fonction de la 
norme 1 du vecteur de coefficients tandis que ceux de droite montrent ces mêmes 
coefficients en fonction du logarithme de À. Il y a bien entendu une « symétrie » 
entre ces deux représentations : une faible norme pour les paramètres correspond à 
une forte valeur de À. On remarque que la présence de la norme 1 dans la pénalité 
(pour le lasso et elastic net) a tendance à mettre à 0 un certain nombre d’estima- 
teurs. En effet, tous les coefficients sont à 0 lorsque À est grand, ils « quittent 0 » les 
uns après les autres au fur et à mesure que À diminue. Ces approches permettent 
donc de faire de la sélection de variables puisque pour une valeur de À fixée, un 
certain nombre d’estimateurs seront égaux à 0. Les valeurs affichées en haut des 
graphes de la figure 8.3 indiquent le nombre de coefficients non nuls. 


Remarque 

Les valeurs de coefficients représentées sur la figure 8.3 sont les valeurs calculées 
dans l’échelle des variables initiales. Ces valeurs se déduisent des valeurs obtenues 
sur les données centrées-réduites à partir de l’équation (8.6). 
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8.3.2 Interprétation géométrique 


Nous repartons de la formulation « avec contrainte ». Dans le cas où 6 = 0, tous les 
coefficients sont à 0 puisqu’il s’agit du seul point à satisfaire la contrainte de norme 
nulle. Au fur et à mesure que la contrainte sur la norme diminue (on augmente 
alors 6), les coefficients augmentent et lorsque la valeur de 6 est suffisamment 
grande, les coefficients deviennent les coefficients obtenus par moindres carrés. 
Reprenons l’exemple du tableau 8.1. Nous avons déjà présenté une représenta- 
tion graphique du problème dans R” (voir les figures 8.1 et 8.2), prolongeant les 
représentations du cadre de la régression multiple au cas avec contrainte. 

Une autre représentation géométrique est possible. Dans les cas ridge et lasso, nous 
cherchons la valeur de 3 dans une boule de rayon 6 qui minimise le critère des 
moindres carrés, cette valeur ayant été nommée Îriage ou Îiasso selon la contrainte 
choisie. Les ensembles de niveau de la fonction 8 > ||Y — X ||? étant des ellipses 
centrées en Ê (estimateur des MCO non contraint), on cherche donc l'élément de 
la boule (pour la norme 1 ou 2) de rayon 6 qui intersecte l’ensemble de plus faible 
niveau de cette fonction. 

Nous avons la représentation de la fonction 8 + ||Y — X ||? avec une contrainte 
de norme de 0.5 donnée en figure 8.4 


1.5 - 


-0.5 - 


Fig. 8.4 — Représentation des estimateurs ridge (gauche) et lasso (droite) sur un 
exemple à deux variables. B correspond à l’estimateur des MCO, les ellipses sont 
des exemples de lignes de niveau de la fonction 8 + ||Y — X8||? et les ensembles 
des boules pour la norme 2 (gauche) et 1 (droite). Les estimateurs ridge et lasso 
correspondent à l’intersection de la plus grande ellipse avec les boules. 


Pour une contrainte de norme de 6 = 0.5, la régression ridge donne un vecteur 
Briage(Ô) dont aucune des deux coordonnées n’est nulle, alors que la régression 
lasso donne le vecteur Brasso (6) = (0,0.5)’. La première variable n’est donc pas 
retenue, il y a une sélection des variables. Quand la norme ô va augmenter (et 
dépasser 1), la première variable sera retenue. 

Cette remarque se généralise à un nombre p de variables (mentalement car la 
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représentation devient impossible) : tous les coefficients sont à 0 lorsque 6 = 0, 
puis les coefficients « quittent 0 » les uns après les autres lorsque ô augmente. 
Dans le cas de la régression ridge, les coefficients quittent simultanément 0 lorsque 
ô quitte 0. On pourra consulter Giraud (2014) pour plus de détails. 


8.3.3 Simplification quand les X sont orthogonaux 


Lorsque la matrice X est orthogonale (donc X'X = Ip), les estimateurs des MCO 
et ridge ont une écriture simplifiée : 


B=(X'X) XY = X'Y 

XY 

1+. 

L’estimateur ridge est une version contractée de l’estimateur des MCO : la j° 
composante de l’estimateur ridge vaut 6;/(1 + À) où 6; est la j° composante 
de l’estimateur des MCO et donc chacune de ses coordonnées a été divisée par 


1 +A > 1 (dès que À > 0). La régression ridge revient donc à « diminuer » les 
estimateurs MCO, à l’image de l’estimateur de James-Stein (8.3.3 p. 205). 


Bridge (À) =(X'X + Rr ae = 


On désigne par Biasso(A) l’estimateur lasso obtenu par 


Brasso(X) = nor IY — X 817 + A 811. 


Nous nous sommes placés ici dans le cas où X est une matrice orthogonale, cette 
hypothèse permet d’obtenir une formule explicite pour l’estimateur lasso. Ainsi, 
l'équation (8.9) s’écrit 


2Brasso(A) = 2X'Y — z 


ce qui devient pour chaque coordonnée 7 
be x 
[Piasso(A)] = [XY]; = 5 


Sila coordonnée [rasso(A)] j west pas nulle, nous avons que zj = A sign([Brasso(À)] j) 
ce qui nous donne pour chaque coordonnée non nulle : 


Asign([Glasso(A)];) = [X'Y], : 

2 2 
Si la coordonnée est positive, nous en déduisons que [X’Y],; > 0 et de plus que 
[X’Y], > A/2. Si la coordonnée est négative, nous en déduisons que [X’Y],; < 0 
et que [X’Y]; < —A/2. Nous avons donc que [X’Y], est de même signe que 
[isso] j, ce qui nous permet de remplacer sign((Prasso(A)] j) par le signe de 


X'Y]; . 
[X’Y],, valant pe : 


Asign([X’Y],) 


[Biasso(A)] = [XY]; 


À f À 
ms = YG = TD 
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et nous gardons la partie positive du facteur le plus à droite afin de garantir que 
les signes soient bien identiques. 
Rappelons que l’estimateur des MCO dans ce cas vaut Ê; = [X’Y],. Ainsi la j° 
composante de l’estimateur lasso vaut 

sign(5;)(|8j| — À/2)4 
où (x)+ = max(x,0). Le lasso met à 0 les composantes pour lesquelles l’estima- 
teur MCO est en valeur absolue plus petit que À/2. Les autres composantes sont 
simplement les composantes de l’estimateur MCO correspondantes rétrécies vers 
0 de A/2. 
La figure 8.5 représente le comportement des estimateurs ridge et lasso en fonction 
de la valeur de l’estimateur MCO. On parle de soft tresholding pour ridge et de 
hard tresholding pour lasso. 


B; 
P [Biasso(A)] 5 


N 
à 


[Bridge ON]; 


ww 


2 -1 0 i 2 

Bi 
Fig. 8.5 — Estimateurs ridge (pointillés), lasso (tirets) et MCO (trait plein) en 
fonction de l’estimateur MCO avec À = 1. 


Analysons l’effet d’un rétrécissement et considérons les estimateurs 


5 1 a 
Bi = FSU 
où À est une constante positive à déterminer. Nous avons les propriétés suivantes : 
~ 1 
EB, = rx" 
V(Bi) = +a?" á 
EQM(&) = Ea +07). 


James et Stein ont proposé l’estimateur de James-Stein défini par (Lehmann & 
Casella, 1998, pp. 359 et 368) 


A == 2 A 
Basi = (1- par) Bi. 
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Ils ont démontré que la trace de PEQM de lestimateur Bys était plus petite que 
la trace de PEQM de l’estimateur des MC £ lorsque p est plus grand que 2. 
Enfin, si l’on prend uniquement la partie positive du premier terme, on obtient un 
estimateur de James-Stein tronqué 


A = 2| 
Bist; = max (o k- e2] à). 


et l’estimateur est encore amélioré en termes d’EQM. Cet estimateur combine le 
rétrécissement et le seuillage. En effet lorsque (p — 2)o?/||B||? est plus grand que 
1, le coefficient associé vaut alors 0. 

Remarquons que, selon la définition de ces deux estimateurs, ils reviennent tous 
deux à « rétrécir » les coordonnées de B vers 0 d’une même grandeur et donc à 
contraindre la norme de 5. En suivant cette idée, il est intéressant d’envisager de 
contraindre la norme de l’estimation afin d’obtenir des estimateurs possédant un 
meilleur pouvoir prédictif. Nous avons vu que l’estimateur de James-Stein (tron- 
qué ou non) est un de ces estimateurs. Nous allons détailler d’autres types de 
contraintes classiques : l’estimateur des moindres carrés sous contrainte de norme, 
tels que la régression ridge (Hoerl & Kennard, 1970), ou le lasso (Tibshirani, 1996). 
Tout d’abord, si l’on souhaite contraindre la norme du coefficient à estimer, il est 
naturel de supposer que cette norme est inférieure à un nombre 6 fixé. Le problème 
de régression s'écrit alors comme la recherche de B tel que 


B= argmin ||Y — X6|?. 
BER? ||B||? <5 


Cette méthode revient à la régression ridge (Hastie et al., 2001) dont le principe 
est exposé à la section 4.1 (p. 73). Géométriquement, cela revient à chercher dans 
une boule de contrainte de rayon 6, le coefficient B le plus proche au sens des 
moindres carrés. 

Les méthodes de régression PLS et de régression sur composantes principales, 
projetant sur un sous-espace de S(X) reviennent aussi à contraindre la norme de 
Y. Il est aussi possible de montrer que la méthode PLS revient à contraindre la 
norme de 8 vers 0 (De Jong, 1995). Ces deux méthodes sont exposées au chapitre 9. 
A l’image de la régression ridge, il est possible de contraindre non plus la norme 
euclidienne (au carré) ||8||?, mais la norme de type l}, à savoir ||8, = D, [GB]. 
Si l’on utilise cette contrainte, la méthode, appelée Lasso, revient à trouver le 
minimum B défini par 


B= argmin ||Y — XS|?. 
BERP,||B||, <5 


Notons enfin que ces méthodes permettent a la fois d’obtenir une prévision fiable 
(moins variable) et de sélectionner des variables. Classiquement elles sont parti- 
culiérement indiquées lorsque les variables explicatives sont corrélées. Cependant, 
nous avons vu que le MSE de la prévision est diminué par l’estimateur de James- 
Stein, et ce dans tous les cas, lorsque l’hypothése de normalité est vérifiée. Il semble 
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donc assez cohérent de penser que les estimateurs contraignant la norme du coeffi- 
cient à estimer 6 donneront de meilleures prévisions que l’estimateur des moindres 
carrés, et ce dans de nombreux cas de figure. 


8.3.4 Choix du paramètre de régularisation À 


Le choix du paramètre À (ou 6) est crucial pour la performance de la procédure. 
Il va réguler le compromis biais-variance des estimateurs. Lorsque À est grand, on 
augmente le poids de la pénalité dans le critère à optimiser. On va donc obtenir 
des estimateurs plus contraints avec moins de variance mais un biais qui risque 
d’être élevé (et réciproquement lorsque À est petit). Il convient donc de trouver 
des procédures qui permettent de choisir ce paramètre. Les méthodes classiques 
consistent à fixer une grille de valeurs possibles de À et à choisir la valeur de À 
dans la grille qui minimise une erreur de prévision. 

La fonction cv.glmnet du package glmnet propose d’effectuer ce choix par vali- 
dation croisée par bloc (cf. algorithme 3, p. 238). Le jeu de données est découpé 
en K blocs. Pour chaque valeur À de la grille : 


1. on estime les paramètres (A) en utilisant K — 1 blocs: 
2. on prévoit les valeurs sur le bloc non utilisé. 


Ces deux étapes sont répétées pour chaque bloc, donnant une prévision g;(À) pour 
chaque observation et pour chaque À de la grille. L’erreur de prévision s’obtient en 
confrontant ces prévisions aux valeurs observées. Deux fonctions sont généralement 
utilisées (et implémentées dans glmnet) : 
— l'erreur quadratique de prévision + >; (yi — g(À))?: 
— l'erreur absolue de prévision 4+ X; [yi — ÿ:(À)|. 
On sélectionnera la valeur de À qui minimise l’erreur choisie. Nous utilisons cette 
fonction pour choisir À dans les modèles ridge, lasso et elastic net présentés dans 
la section 8.3.1. 
> cv.ridge <- cv.glmnet(ozone.X, ozone.Y, alpha = 0) | 
> cv.lasso <- cv.glmnet(ozone.X, ozone.Y) #alpha=1 par défaut 
> cv.en <- cv.glmnet(ozone.X, ozone.Y, alpha = 0.5) 


La fonction retourne, pour chaque valeur de À testée : 

— erreur quadratique de prévision (cvm) ainsi qu’une estimation de son écart- 
type (cvsd). On peut en déduire un intervalle de confiance (cvlo et cvup) associé 
à cette erreur ; 

— le nombre de coefficients non nuls (nzero). 
La valeur de À qui minimise l'erreur (lambda.min) est également bien entendu 
proposée. La fonction renvoie de plus une autre valeur lambda. 1se qui correspond 
à la plus grande valeur de À pour laquelle l'erreur se situe à plus un écart type 
de l’erreur en lambda.min. En pratique, cela signifie que l'utilisateur peut choisir 
lambda.min ou lambda. {1se. Si on privilégie la parcimonie du modèle (lorsqu’on 


Régularisation des moindres carrés : Ridge, Lasso et elastic-net 207 


fait du lasso par exemple), on choisira lambda.1se. On obtient ces deux valeurs 
de À avec : 


> cv.ridge$lambda.min 
[1] 4.209389 
> cv.ridge$lambda. ise 
[1] 24.65448 


On peut visualiser les erreurs en fonction de log(A) avec les commandes suivantes 
(voir figure 8.6) : 


> plot(cv.ridge, main 
> plot(cv.lasso, main 


" Ridge " ) 
"Lasso") 
"Elastic net") 


> plot(cv.en, main = 


Ridge Lasso Elastic net 
999999999999999 eee Te 99988997775531 
£] ns i i 
el _ el | 
Uae 2+ | 
f i 
Bo i S 5 e] 2 
gm] a 8 a” 
Le] m0 Le] . 
2 g $ i 
S g So . 
2 $4 ee] 598] ' 
4 a # 
£ £ £ i 
5 8 3 i 
= * hil = 34 = 5] : 
i ' i 
7 i! a | i 
S- Le 3J nn A LL s+ Sinai vill 
= T s T T T T T T T : T T T T = r 
10 -4 2 -4 


log(Lamkda) Tog(Lambda) 7 log(Lambda) 
Fig. 8.6 — Erreurs quadratiques de prévision en fonction de log(\) pour les esti- 
mateurs ridge (gauche), lasso (milieu) et elastic net (droite). 


On remarque que deux lignes verticales sont représentées sur le graphe. Celle de 
gauche correspond à la valeur lambda.min, celle de droite à lambda.1se. Une fois 
le paramètre À choisi, l’estimateur final est ensuite ajusté avec toutes les données. 
On rappelle que les données ont été centrées-réduites pour calculer les estima- 
teurs (A). Ainsi la prévision d’un nouvel individu Tan = (nihii 
s’effectuera selon 


“5 Lap); 


thl) = 


On remarque que cette prévision peut se réécrire comme une combinaison des 
variables initiales : 


J yz A0) ten. 


OX; 
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Sur R, il suffira d’appliquer la fonction predict à l’objet construit avec cv.glmnet. 
On obtiendra la prévision pour les deux nouveaux individus 


> xnew 

T12 T15 Ne12 N12 $12 E12 W12 Vx 03v 
[1,] 13.6 14.4 1 O O0O 1 03.55 97.8 
[2,1 21.8 23.6 6 4 0 O O 2.50 112.0 


avec 


> predict (cv.ridge ,newx=xnew) 
1 

[1,] 90.89298 

[2,] 90.87307 


Par défaut, c’est la valeur lambda.1se qui est utilisée pour faire la prévision. 
On pourra utiliser la valeur lambda.min en utilisant l’option s dans la fonction 
predict. 


8.4 Intégration de variables qualitatives 


Il arrive fréquemment que, parmi les variables explicatives, certaines soient quali- 
tatives. Ce problème a largement été abordé dans le chapitre 6 où nous avons vu 
que la solution classique consiste à utiliser un codage disjonctif complet : chaque 
modalité est transformée en un vecteur d’indicatrices d'appartenance à la moda- 
lité. Nous avons par exemple vu sur l'exemple des eucaplytus que la variable bloc, 
qui prenait 3 modalités, était recodée de la façon suivante 


Al 1 0 0 
Al 1 0 0 
A2 0 1 0 
bloc = À = 49 => A= 0 10 
A3 0 0 1 
A3 00 1 


Un tel codage revient à utiliser un coefficient pour chaque modalité de la variable 
dans le modèle et conduit à une surparamétrisation du modèle qui n’est alors plus 
identifiable. Les solutions proposées dans le chapitre 6 consistaient à utiliser des 
contraintes identifiantes comme fixer à 0 

— le coefficient associé à une modalité, appelée modalité de référence ; 

— la somme des coefficients associés à la variable qualitative. 

Pour les estimateurs MCO, nous avons montré que le choix de ces contraintes a 
une influence sur la valeur des estimateurs, et donc l’interprétation des coefficients 
mais pas sur le modèle. Les prévisions sur des nouveaux individus seront par 
exemple toujours les mêmes, quelle que soit la contrainte. En est-il de même avec 
les régressions pénalisées ? 
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Nous répondons à cette question à l’aide de exemple suivant. Nous considérons 
a nouveau les données ozone qui comportent deux variables qualitatives parmi les 
variables explicatives (nebulosite 4 2 modalités et vent 4 4 modalités) et nous 
proposons deux paramétrisations différentes. La fonction model.matrix utilise 
par défaut la première modalité dans l’ordre alphabétique comme modalité de 
référence : NUAGE pour la variable nebulosite et EST pour la variable vent. 


",row.names = 1) 


ozone<-read.table("ozone.txt",header=TRUE, sep="; 
library (glmnet) 

ozone.X <- model.matrix(03-.,data=ozone) 
ozone.Y <- ozone$03 

cv.defaut <- cv.glmnet(ozone.X,ozone.Y) 


lassodefaut<-glmnet (ozone.X,ozone.Y, lambda=cv.defaut$lambda.min) 


VVVVV MV 


On utilise maintenant NORD comme modalité de référence pour la variable vent 


> ozone$vent <- relevel (ozone$vent ,ref="NORD" ) 

> ozone.X <- model.matrix(03-.,data=ozone) 

> cv.nord <- cv.glmnet (ozone.X,ozone.Y) 

> lassonord <- glmnet(ozone.X,ozone.Y,lambda=cv.nord$lambda.min) 


Les coefficients (lassodefaut$beta et lassonord$beta) ainsi que les À sélection- 
nés par validation croisée sont différents. Comme nous pouvons le voir sur les 
quatre premiéres observations les prévisions sont également différentes : 


> predict (lassodefaut,ozone.X[1:4,]) 
sO 

19960422 78.60837 

19960429 91.08168 

19960506 74.16593 

19960514 75.37471 

> predict (lassonord,ozone.X[1:4,]) 
sO 

19960422 79.39104 

19960429 90.66975 

19960506 74.42717 

19960514 75.26528 


Nous pouvons donc conclure que, contrairement aux MCO, le choix de la contrainte 
identifiante a une influence sur les prévisions pour les méthodes pénalisées. Méme 
si le plus souvent les résultats obtenus seront trés proches, on peut bien entendu 
se poser la question du choix de la contrainte. Il n’y a pas de réponse évidente à 
cette question. 

La contrainte somme peut paraitre la plus naturelle puisqu’elle ne repose pas sur 
une modalité particuliére : 
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> ozone.X <- model.matrix(03~.-vent-nebulosite+C(vent,sum)+ 
C(nebulosite, sum) ,data=ozone) 

cv.sum <- cv.glmnet (ozone.X,ozone.Y) 

> lassosum <- glmnet (ozone.X,ozone.Y, lambda=cv.sum$lambda.min) 

predict (lassosum,ozone.X[1:4,]) 

sO 

19960422 78.13964 

19960429 90.22089 

19960506 74.88035 

19960514 74.66571 


Vv 


v 


Pour les variables qualitatives, il est souvent recommandé d’utiliser le Group- 
lasso (voir section 13.3). Dans ce cas on regroupe les coefficients associés à chaque 
variable qualitative. Le Group-lasso aura ainsi tendance à mettre à 0 tous les 
coefficients associés à la variable. 


8.5 Exercices 


Exercice 8.1 (Questions de cours) 
1) La régression avec contrainte de norme sur B est en général utilisée lorsque l'hypothèse 
ci-dessous n'est pas satisfaite : 
A. Hı concernant le rang de X (matrice du plan d'expérience), 
B. H2 concernant l'espérance et la variance des résidus, 
C. H3 concernant la normalité des résidus. 
2) Lorsque la matrice (X'X) n'est pas inversible, l'estimateur des moindres carrés 
A. existe et est unique, 
B. existe et n'est pas unique, 
C. n'existe pas, aucun estimateur ne minimise les moindres carrés. 
3) La régression ridge peut être vue comme une régression avec comme critère d'estimation 
les moindres carrés et une contrainte de norme sur 
A. le plan d'expérience (X), 
B. les paramètres, 
C. aucun rapport. 
4) La régression lasso peut être vue comme une régression avec comme critère d'estimation 
les moindres carrés et une contrainte de norme sur 
A. le plan d'expérience (X), 
B. les paramètres, 
C. aucun rapport. 
5) Parmi les affirmations suivantes, lesquelles sont vraies ? 
A. Les méthodes régularisées de type lasso/ridge permettent de réduire la variance des 
estimateurs MCO, 
B. On utilise généralement les méthodes ridge/lasso lorsque le nombre de variables expli- 
catives p est grand, 
C. Les méthodes régularisées de type lasso/ridge permettent de réduire le biais des esti- 
mateurs MCO, 
D. Les estimateurs ridge/lasso sont toujours plus performants que les estimateurs MCO. 
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6) Soit À > 0. Les estimateurs lasso s’obtiennent en pénalisant le critère des moindres 
carrés par 


A. AÐ? lB, CAE E. AD, log(|B51), 
B. NE VB, D. NS 82), F. Na 


7) On considère les estimateurs lasso définis par la pénalité proposée à la question précé- 
dente. Parmi les affirmations suivantes, lesquelles sont vraies ? 

Les estimateurs seront proches de 0 pour de très petites valeurs de À, 

Les estimateurs seront proches des estimateurs MCO pour de très grandes de À, 

Les estimateurs seront proches de 0 pour de très grandes valeurs de A, 

Les estimateurs seront proches des estimateurs MCO pour de très petites de À, 

Il faut toujours choisir À le plus grand possible, 

Il faut toujours choisir À le plus petit possible. 


nmoowxz 


Exercice 8.2 (Projection et régression ridge) 
Soit le modèle de régression classique 


Y = XB+e. 
Montrer que l'estimateur ridge n'est pas une projection. 


Exercice 8.3 (Variance des valeurs ajustées avec une régression ridge) 
Soit le modèle de régression classique 


Y = XB+e. 


Considérons les valeurs ajustées Ê obtenues avec l'estimateur des MCO et les valeurs ajustées 
Y;idge(A) obtenues avec l'estimateur ridge (pour un À > 0 donné). 
Montrer que 


lYriagell < IY. 


Exercice 8.4 (Nombre effectif de paramètres de la régression ridge) 
Toutes les variables sont centrées et réduites. Dans la régression multiple sur p variables 
explicatives, le nombre de coefficients inconnus {8;} est p, c'est-à-dire tr( Px). Rappelons 
que l'application qui à Y fait correspondre Ÿ est Px. La trace de cette application donne le 
nombre effectif de paramètres. Cette notion peut être étendue à la régression ridge. 
1) Dans le cas de la régression ridge, quelle est l'application H(«) qui à Y fait correspondre 
Y-iage(K) ? 
2) Soit A une matrice carrée symétrique p x p (donc diagonalisable). Montrer que si Uj 
est vecteur propre de A associé à la valeur propre d?, alors U; est aussi vecteur propre de 
A + XIp associé à la valeur propre À + d;. 
3) En utilisant la décomposition en valeurs singulières de X : X = QDP’ avec Q et P 
matrice orthogonale et D = diag(di,...,dp), montrer que 


tr(X(X'X +A) X’) = tr(PD(D? + A) DP’). 


En déduire que le nombre effectif de paramétres de la régression ridge est 


Ly 
= d; + À 
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Exercice 8.5 (Estimateurs à rétrécissement — shrinkage) 
Soit le modèle de régression classique 


Y = XB+e. 


Soit la décomposition en valeurs singuliéres de X : 


; A 
PXQ = pala) 


où P et Q sont 2 matrices orthogonales de dimension n x n et p x p et A est la matrice 
diagonale des valeurs singulières {6;} de dimension p. Posons Z = PY, + = QB et n = Pe. 
1) Etablir que si € ~ N (0, o°In), alors 


Z = Dy+n, 


Zip ~ N(Ay, 07 Ip) et Zoppt)in ~ N(0,07In—p). Ici Z1 est le vecteur constitué des p 
premières coordonnées de Z alors que Z(p41):n contient les n — p dernières. 

2) Etablir que la trace de la matrice de l'EQM pour un estimateur linéaire B = AY de B 
est la même que celle de 4 = QB, estimateur de y. 

3) Etablir que l'estimateur des moindres carrés de y est 


Mc = A Zig: 


et en déduire que 4mc ~ N (y, o? A~*). L'estimateur 4uc est linéaire en Y et ses coordon- 
nées sont indépendantes entre elles. 

4) Montrer que l'EQM de la 5 coordonnée de 4mc vaut 07/57. 

5) Prendre un estimateur linéaire de y : 


4(c) = diag(ci) Zap: 


Vérifier que ses coordonnées sont normales et indépendantes entre elles. Montrer ensuite 
l'égalité suivante : 


EQM(A(c)i) = E(4(e)i — 1)? = do + Vi (cid: — 1). 


6) En déduire que si y? < oe eee alors EQM(4(c)i) < Fc. 
Pour une condition particulière dépendant des X, il existe un estimateur linéaire de coor- 


données indépendantes qui possède un meilleur EQM que celui des MC. 


7) Montrer que si c; = rt alors 4(c) = Q(X'X + KIp)~'Q'D'Z, et en déduire que 


B=Qy = (XX +r) XY. 


Pour une valeur particulière du vecteur c, nous retrouvons l'estimateur ridge. Ce type d'es- 
timateur permet une généralisation de la régression ridge. 


Exercice 8.6 (coefficient constant et régression sous contrainte) 

Soit le modèle de régression multivarié classique où la p° variable est le vecteur 1,. La 
régression sous contrainte (avec la contrainte J()) est utilisée pour estimer 8, avec À fixé. Le 
p? coefficient n'est pas inclus dans la contrainte, seules les autres variables £ = {1,...,p—1} 
de X sont incluses dans la contrainte. Par ailleurs, ces variables de l'ensemble € sont toutes 
centrées. 
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1) Montrer que vect(1) ® vect(X¢). 
2) Montrer que argmin, ||Y XB? + AT (Be) = argming || Px Y — XB\|? + AT (Be). 


3) Déduire des questions précédentes que Bp(A) estimé par cette méthode vaut y. 


Exercice 8.7 (Unicité pour la régression lasso, Giraud (2014)) 
On considère la régression lasso pour À > 0 fixé et nous allégeons la notation et notons B au 
lieu de Biased). 
1) En utilisant le fait que Z € R”, Z ++ ||Y — Z||? est une fonction strictement convexe 
(Va € [0,1], g(aY + (1 — a)Z) < ag(Y) + (1 — a)g(Z)), montrer que si Bi € R? et 
Bo € R? sont solutions de la régression lasso alors nécessairement Xp, = = X Bo. (Prendre 
le milieu (Bi + B2)2 ) et montrer que l'on aboutit à une contradiction si XB Fx X Bo.) 
2) En déduire que XB est unique. 

3) Soit By € R? et Bo € R?” deux solutions de la régression lasso avec (XB = = XD). 
Montrer que forcément les équations (8.9) (p. 198) vérifiées par B1 et B2 entraînent que 
zı € ðq et 22 € Og sont égaux (on notera par la suite z ce vecteur). 

4) Déduire du point précédent que quelle que soit B solution de la régression lasso, nous 
n'avons qu'un seul ensemble € C {1,...,p} pour lequel Yj € €, |z;| = 1. 

5) Montrer que cet ensemble € contient toutes les coordonnées non nulles de B solution 
quelconque de la régression lasso. 

6) Soit une solution B de la régression lasso, montrer que pour les coordonnées dans € nous 
avons 


A À 
XeXebe = [XVIe - 3% 
et donc que sous H4 (Xe est de plein rang) nous avons unicité. 


Exercice 8.8 
Le fichier echan_lasso.csv contient un n échantillon (X;, Y;),¢ = 1,...,60 issu d'un modèle 
de régression 

Y = m(X) +e. 


Le fichier courbe_lasso.csv contient les valeurs de la fonction à estimer m : R — R. 
1) Représenter la fonction à estimer ainsi que le nuage de points. 
2) Ecrire un modèle linéaire permettant d'estimer la fonction m dans une base de Fourier. 
3) Ecrire une fonction R qui renvoie une matrice contenant les valeurs cos(2k7a) et 
sin(2krx),k = 0,...,K pour un vecteur x et un entier K donnés. 
4) Calculer les estimateurs des moindres carrés du modèle écrit à la question 3 (on prendra 
K = 25). Tracer l'estimateur de m. Interpréter. 
5) Faire de même en estimant les paramètres à l'aide de la méthode lasso. Interpréter. 


8.6 Note : lars et lasso 


Cette note permet de faire un lien géométrique entre la méthode du lasso et la sélec- 
tion de variables ascendante. La méthode appelée least angle regression (LARS) permet 
pratiquement de calculer les valeurs de Êiasso( À) pour toutes les valeurs de À avec un 
coût calculatoire identique à celui de la régression. Rappelons que toutes les variables 
sont centrées réduites afin de se débarasser du problème de la localisation (le calcul de 
Vintercept ou coefficient constant) et d’accorder la même importance à chaque variable. 
Dans le cadre de cet algorithme et afin de nous rapprocher de la présentation de Efron 
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et al. (2004), nous allons supposer que les variables sont centrées et normées a l’unité, ce 
qui donne par exemple pour la j° variable explicative : 


NX; = 1, Zj = 0. 


Dans ce cadre-là, la norme équivaut (à 1/n près) à la variance, le produit scalaire entre 
deux variables donne l’angle entre ces deux vecteurs (puisqu'ils ont même norme) et il 
équivaut (à 1/n près) à la corrélation. 

Plaçons-nous dans le cas où nous avons seulement deux variables explicatives représentées 
par la figure 8.7. Si nous utilisons un choix de variables ascendant (forward), nous partons 
du modèle sans aucune variable. Comme toutes les variables y compris Y sont centrées, 
nous avons donc que YO = 0. Ensuite, nous cherchons à ajouter la variable qui donne le 
plus d’information. Ceci revient à prendre la variable la plus corrélée au résidu du modèle 
en cours, c’est-à-dire à Y —Ÿ (0), Dans l'exemple de la figure 8.7, nous sélectionnons comme 
première variable la variable X; : elle forme l’angle le plus faible avec Ÿ donc avec Y. Le 
modèle ajusté à la première étape est donc 


YO = PY = Xi(X{X1) XY = X (XY) = X% = 7X, 


où qı est la corrélation entre Y et X1 (à 1/n près). Nous nous sommes donc déplacés 
de l'étape précédente Y©) dans la direction de la variable la plus corrélée (X1) d’une 
quantité 71. 

A la seconde étape, nous ajoutons la seconde variable et nous avons 


YY? = Pxy. 


Nous ajoutons à Y Je trajet grisé sur la figure 8.7 sur la perpendiculaire à X1. 


-- + 


x xa 
YO = PxY = XÊ 
= \ 


ae \ 


pares 


yoy YO =Px,Y 
Fig. 8.7 — Sélection ascendante pour deux variables explicatives. 


Si nous utilisons la méme procédure : sélection de la variable la plus corrélée au résidu 
courant de l’étape k (Y — y) et déplacement dans la direction de cette variable d’une 
certaine quantité y, nous avons une autre règle : 


Or (k+1 Or (k 
PHD =, PSN 


où j(k) est le numéro de la variable la plus corrélée avec Y — YY). Si le pas y est petit 
(et tend vers 0) nous avons alors le trajet en noir sur la figure 8.8. 
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Fig. 8.8 — Procédure « stagewise ». 


Numériquement cette procédure n’est pas optimale, car dans les premières étapes nous 
nous dirigeons selon X1, puis dans les étapes suivantes nous nous déplaçons autour d’une 
droite. Cette droite est en fait parallèle à la bissectrice de l’angle entre X, et X2. En 
effet, pour alterner la direction Xı puis la direction X2 comme c’est le cas, il faut être à 
la bissectrice. Cette bissectrice est la droite telle que son angle (corrélation) avec X1 est 
égal à son angle avec X2. 

La procédure lars va permettre d'optimiser ces calculs en 2 étapes. La première étape est 
le déplacement selon Xı jusqu’au point yO point qui est l’intersection de la parallèle à 
la bissectrice de X1 X2 passant par Y (voir fig. 8.9). La seconde est le déplacement sur 
cette bissectrice jusqu’au point final. 

Remarquons enfin que si la variable X2 était remplacée par son opposé sur le graphique 
8.9, donnant ainsi naissance à un nouvel exemple, le chemin vers Ÿ resterait le même. Il 
faudrait calculer l’angle entre —X2 et Xi pour obtenir la bissectrice. 


-X 


ye 


= 
Px,Y Xi 
Fig. 8.9 — Procédure « lars ». 


Analytiquement, nous avons donc utilisé l'algorithme suivant 
1) Calcul du résidu courant : Y — Y), 
2) Détermination de l’ensemble des variables actives £(k). Ce sont les variables les plus 
corrélées avec ce résidu : 


gE = {j e {Ln ph XY -Ÿ®)= 0} 


avec C*) le maximum de la valeur absolue de la corrélation (à 1/n près) entre le résidu 
et les variables : max; |X; (Y — ÊA). Remarquons qu’à la première étape il n’y a qu’une 
variable dans € GR), 

3) Déplacement selon le vecteur directeur Agr) qui a un angle (une corrélation) iden- 


tique avec toutes les variables de £ (x) (ou à leur opposé) : 
yet) = y® + 7 Acce); 


avec yp choisi comme la plus petite valeur telle qu’une nouvelle variable (ou son opposé) 
rejoigne l’ensemble €“) des variables actives pour le nouveau résidu Y — yer), 
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Cet algorithme ne donne pas exactement les solutions de la méthode lasso. Nous retrou- 
vons que la première variable à être intégrée au modèle est celle qui est la plus corrélée. 
Cependant, une contrainte de non changement de signe doit être ajoutée à l’algorithme 
afin d’obtenir les solutions du problème du lasso. Nous renvoyons le lecteur intéressé à la 
lecture de l’article de Efron et al. (2004). 


Exercice 8.9 (Algorithme LARS) 
Soit g = signe{ X; (Y = yy} le signe des corrélations entre chaque variable 7 € 
{1,...,p} et le résidu de l'étape k. Soit Lec) le vecteur constitué de 1 et de longueur 
le nombre de variables dans et), Notons Elke l'ensemble complémentaire de £(*) et Xec) 
la matrice (..., sjXj,...) j € Et), 
1) Vérifier que le vecteur As) = Xeo (A Xe) Let) possède un produit scalaire 
constant positif avec toutes les variables de AR . . 
2) Vérifier que IA eco |? = Dee (Xpo Xe) Let) et que Ag) = AVOrIAYOI| a 
pour norme unité. Conclusion : le vecteur directeur (de norme unité) Ag) a bien un angle 
constant positif avec toutes les variables de £(*). 
3) Soit le nouvel ajustement 


PER — P + A. 


Calculer le résidu (à l'étape k + 1) et en déduire que 
a) pour les variables de €) la valeur absolue de la corrélation entre ces variables et le 
résidu est 
CO Acc |l; 


b) pour les variables j qui sont dans EDS, la corrélation entre ces variables et le résidu 
est 
XY -Y®) — wX Ap. 


4) Posons que l'unique variable sélectionnée à l'étape k + 1 est la variable X; (j € AUD) 
Vérifier à l'aide de la question précédente, que la plus petite valeur de yx > 0 (i.e le plus 
petit déplacement dans la direction Ag) qui permet a une variable de rejoindre Eth) (et 


de former €*+))) est définie par 


acs { of -— xy = VO) cM y = y \ 
eee l Awl -X Agcy 7 Agcy |] + X7A gc 


où min’ (a,b) sélectionne la valeur parmi (a,b) qui est positive. Le minimum est bien sûr 
atteint avec la variable j. 


Chapitre 9 


Régression sur 
composantes : PCR et PLS 


L’objectif consiste toujours à expliquer (ou prévoir) la variable Y. Dans ce chapitre, 
nous allons modifier les variables initiales X et les transformer en « composantes » 
qui peuvent étre vues comme des nouvelles variables, des indicateurs ou des index 
construits comme des combinaisons linéaires des variables explicatives initiales. Ces 
approches déplacent donc le probléme des variables initiales vers des composantes. 
L’idée sous-jacente est celle d’un changement de base. 

Nous allons choisir des composantes orthogonales entre elles. En effet, travailler 
avec des variables orthogonales facilite grandement l’analyse d’un problème de 
régression : pour le calcul de l’estimateur et ses propriétés statistiques, pour le 
choix de variables (chapitre 7) ou pour la régression sous contraintes (chapitre 8). 
En général, ces méthodes sont utilisées quand les variables explicatives sont cor- 
rélées entre elles et/ou en grand nombre (par exemple lorsque p > n). Il est 
envisageable (et nous verrons cela dans le cas de la régression sur composantes 
principales) de coupler ces méthodes avec les méthodes de régularisation vues au 
chapitre précédent. 

De nombreuses méthodes existent pour obtenir une base orthogonale de l’espace 
engendré par les colonnes de X (méthode de Gram-Schmidt, décomposition QR, 
SVD, diagonalisation...). Ces méthodes d’orthogonalisation dépendent uniquement 
des variables explicatives et sont indépendantes de Y. Nous présenterons d’abord la 
méthode de régression sur composantes principales basée sur une diagonalisation 
de matrice symétrique. Nous étudierons ensuite la régression PLS qui utilise Y 
pour orthogonaliser l’espace engendré par les colonnes de X. 

Ces composantes étant bâties comme des combinaisons linéaires des variables expli- 
catives, il est d’usage de centrer-réduire au préalable ces variables. C’est pourquoi, 
comme pour les méthodes pénalisées, nous travaillerons avec le modèle suivant 


Y = ul+XB+e, 


où les variables X sont maintenant centrées réduites (voir 8.2, p. 194). 
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9.1 Régression sur composantes principales (PCR) 


9.1.1 Changement de base 


La matrice X’X (de dimension p x p) est une matrice symétrique à coefficients 
réels, elle est donc orthogonalement diagonalisable dans R et nous pouvons écrire 


X'X = PAP’, (9.1) 


ou P est la matrice des vecteurs propres normalisés de (X'X), c’est-à-dire que P 
est une matrice orthogonale (P’P = PP’ = Ip) et A = diag(Aj, À2,..., Àp) est la 
matrice diagonale des valeurs propres classées par ordre décroissant, Aj > <+- > Ap. 


Remarque 

Si l’on effectue l’analyse en composantes principales (ACP) du tableau X (ou du 
triplet (X, Ip, In/n)), la matrice P est la matrice des axes principaux normés à 
l'unité, mais les valeurs propres de ACP sont À;/n avec j variant de 1 à p. 


Rappelons que les variables explicatives X sont centrées réduites et que le modèle 
de régression de départ est 


Y=u1+XB+E. 


Puisque P’P = PP’ = I,, nous pouvons remplacer X par X PP’ et nous avons 
alors 


Y = ul + XPP'B +e, 
que nous décidons de réécrire sous la forme simplifiée suivante : 
Y = pwl+XxX*B* +e, (9.2) 


ou 8* = P’B et X* = XP. Les colonnes de X* sont traditionnellement appelées 
composantes ou composantes principales !. Cette dernière équation (9.2) définit un 
modèle de régression que nous appellerons modèle « étoile » qui est tout simplement 
la régression sur les composantes principales X*. 

Par construction, nous avons 


X*'X* = P'X'XP = P'PAP'P = À. (9.3) 


Cela signifie que les nouvelles variables X; = XP; constituant les colonnes de 
X*, sont orthogonales entre elles et de norme À;. C’est une propriété classique des 
composantes principales d’une ACP. 


1. Lors de PACP du tableau X (ou du triplet (X, Ip, In/n)), les composantes principales 
normées à la valeur propre obtenues sont égales aux vecteurs x; que l’on obtient ici, d’où le nom 
de la méthode. 
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9.1.2 Estimateurs des MCO 


L’estimateur des MCO de (u, 8*’)’ du modèle étoile ci-dessus est donné par la 
formule classique 


(Êy = (AIX) (LA) AUX Y. (9.4) 
Les variables de X sont centrées et donc orthogonales à 1, on a alors 
L'X=0=1'XP =1X*. 


Cela permet d’écrire le produit suivant comme une matrice bloc : 
#\/ x) [mn 0 
aixryaixe)=(5 ger) 


L’inverse de cette matrice diagonale par bloc est simplement l'inverse de chaque 


bloc. Le bloc X*’X* à inverser est déjà calculé en (9.3), son inverse est simplement 
la matrice diagonale des inverses A~!; les estimateurs des MCO s’écrivent : 


1% 
Bere re = A`! P' X'Y. 


Remarquons que la dernière ligne de calcul ci-dessus ne comporte qu’une inversion 
d’une matrice diagonale, ce qui simplifie grandement son calcul. La matrice de 
variance covariance de * vaut o?((1|X*)'(1|X*))~1, ce qui en calculant bloc par 
bloc donne ici 

2 


V(j) = — 
V(B*) = ig X" Sa ee a Ae, 


En termes statistiques, les estimateurs des coefficients ee j =1,...,p associés à 
chacune des composantes principales sont non corrélés (puisque la matrice A est 
diagonale). De plus, les valeurs propres étant classées par ordre décroissant, la 
variance des estimateurs est donc dans l’ordre opposé : V(Bi) < V(x) si j < k. 
Ainsi les estimateurs obtenus avec les premières composantes sont moins variables 
que les estimateurs obtenus sur les dernières composantes. 

En nous rappelant que la variance de l’estimateur des MCO est 


VG) = OPA) = 0 PAP, 
dans le modèle de régression nous n’avons donc aucune assurance de non-corrélation 
entre coefficients, ni aucun ordre de variabilité. 
Rappelons enfin que 8* minimise aussi les moindres carrés puisque les moindres 
carrés du modèle étoile et du modèle initial sont identiques par construction : 


[Y -u1 - Xp? = |Y -pt - XPP’? = |Y — pt — X*8" |? 
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Remarque 

En général la régression sur composantes principales propose un nombre k < 
rang(X) de composantes et donc les moindres carrés obtenus avec la régression 
linéaire et ceux obtenus avec la régression sur composantes principales sont diffé- 
rents et les prévisions proposées par les deux modèles n’ont aucune raison d’être 
identiques. Dans ce cas-là, il s’agit de deux modélisations différentes. 


9.1.3 Choix de composantes/variables 


Une fois ce changement de base effectué, il est important de choisir les composantes 
qui figureront dans le modèle. Les approches sont similaires aux procédures de 
choix de variables. Deux grandes familles de méthodes sont généralement utilisées : 
les méthodes classiques de choix de variables (voir chapitre 7, p. 159) ou celles 
plus spécifiques utilisant l’ordre de construction des composantes (i.e. l’ordre des 
À; décroissant). 


Approche choix de variables 


Rappelons que des variables orthonormées (et pas simplement orthogonales) sim- 
plifient les procédures de sélection de variables (voir l'exercice 7.6 p. 186). La 
sélection est faite de manière indépendante d’une variable à l’autre : garder ou 
non une variable n'implique pas de recalculer les coefficients pour les autres va- 
riables. Il suffit de calculer les estimations dans le modèle complet puis d’annuler 
les coefficients des variables non retenues (seuillage dur) en fonction d’un critère 
choisi. Il n’y a pas besoin d'utiliser un algorithme spécifique (Forward, Backward, 
Stepwise...) pour trouver le meilleur modèle. 

Le cadre des variables orthogonales où se trouve le modèle « étoile » est très voi- 
sin. Rappelons que la norme au carré des variables X j vaut À;. Pour normer les 
variables X* il suffit donc de diviser ces variables par VX , le coefficient associé 
à la j° variable orthonormée est alors celui de la j° variable orthogonale multiplié 
par 4/À;. Il faut donc analyser | ĝ; il. 

Les procédures de choix de composantes « classiques » reviennent alors à dire que la 
j° variable est conservée si la ligne correspondant à la méthode choisie est vérifiée : 


Test : [Be VA; > 20 
R3:  [BFVAj| > 
Cp: BV; > V2. 


Quelle que soit la procédure choisie, il faut donc une estimation de ø pour sélec- 
tionner les coefficients et donc les composantes. Quand l’hypothèse Hı est vérifiée 
sur le modèle complet, un estimateur de o? peut être obtenu en utilisant les résidus 
du modèle complet. 

Le calcul de PAIC ou du BIC nécessite de connaître le nombre de composantes 
que nous allons sélectionner. La constante ne fait pas partie des composantes à 
sélectionner. Dans notre cas, la constante est dans le modèle et u est estimé par 
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à. Nous proposons donc d’ordonner les composantes en respectant l’ordre des 
| BF. /,;|. En respectant cet ordre, on aura par exemple pour le BIC 


CR(1) 


n(1 + log 27) + nlog 2 


Dilys — 9)? - BB Aq) 


n 


BIC(1) + 3logn 


= n(1+log27) + nlog + 3logn 


car nous avons estimé 3 paramètres (à, 6(1),@) puis 


Dilys — 9)? — BRAG — BRAG 


n 


BIC(2) = n(1+log2r)+ nlog +4logn 

et ainsi de suite en respectant donc l’ordre obtenu en classant les composantes selon 
les valeurs de | Bi V/Ajl- Cette procédure n’est pas implémentée dans les logiciels 
et nous vous proposons de le faire dans l’exercice 9.2. Vous pouvez également faire 
une fonction qui, après avoir estimé o?, effectue un choix de composantes avec les 
différents critères (voir exercice 9.3). 


Approche utilisant la validation croisée 


La validation croisée (voir algorithme 3 p. 238) est souvent utilisée pour choisir le 
nombre de composantes en régression PCR. Elle est implémentée dans la fonction 
pcr du package pls. Le principe est toujours le même, à savoir qu’on divise le jeu 
de données initial en b parties distinctes approximativement de même taille. Pour 
une partie donnée, par exemple la 7°, on met de côté cette i° partie des données 
pour effectuer la prédiction après avoir estimé les modèles sur toutes les autres 
observations appelées souvent données d’apprentissage. Et on répète ce travail sur 
les b parties. Ainsi à la fin de la procédure, tous les individus ont été prévus une 
fois et il est donc possible d’évaluer la qualité des prévisions. Il faut juste spécifier 
le critère de qualité. En général le critère proposé est l’erreur quadratique moyenne 
de prévision (EQMP) qui est la moyenne des erreurs de prévision au carré 


n 


EQMP() =~ DO (per) - Yi}, 


4=1 


où Y?(per, j) désigne la prévision de l’observation i avec la régression sur j com- 
i WCT, J g P J 
posantes principales. Le nombre de composantes choisi j est celui qui minimise 
la moyenne des erreurs de prévision au carré argmin, EQMP(j). D’autres critères 
y P j J 
peuvent être utilisés comme 


i Loy 
MAE(j) = > XC |¥? (per, j) — Yi]. 
j=l 


La fonction pcr teste donc les modèles avec 1 composante, puis 2 composantes... en 
utilisant l’ordre de construction des composantes (i.e. Pordre des À; décroissant). 
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On évalue la qualité des différents modèles testés (ici le modèle 1 utilise unique- 
ment la première composante Xï, puis le modèle 2 les 2 premières composantes 
Xï, X35...) en utilisant le critère choisi. La taille optimale 7 est celle qui conduit à 
la minimisation du critère. Ce travail est proposé dans l’exercice 9.4. 


9.1.4 Retour aux données d’origine 


Remarquons que choisir des variables revient soit à éliminer les colonnes dans 
X* et les coefficients associés dans ĝ*, soit à mettre des 0 dans les coordonnées 
du vecteur B* dont les variables n’ont pas été choisies. Etant donné € un sous- 
ensemble de {1,...,p}, nous noterons X é (ou Pe) la matrice où seules les colonnes 
de l’ensemble € ont été conservées et be le vecteur de coefficients ĝ* dans lequel 
seules les coordonnées correspondant à l’ensemble € ont été gardées (donc élément 
de R'§!). Par abus de notation, nous noterons Be le vecteur de IR? égal à B* excepté 
pour les variables non retenues et pour lesquelles le coefficient a été mis à 0. 
Rappelons que la formule de passage de 6* à B est donnée par 


p* =P (9.5) 


et donc pour passer de B a B il suffit de calculer B = PË*. En appliquant cette 
formule a 5, une fois choisies les composantes pertinentes, nous pouvons revenir 
au modèle initial 


Be = Pb: 


et ensuite calculer avec les variables initiales les valeurs ajustées par le modèle à 
composantes choisies : 


Ye = glt+ Xe. 


Il faut faire attention car la matrice des variables explicatives a été centrée et 
réduite avant de commencer à travailler comme nous l’avons annoncé en début de 
chapitre. Les Be obtenus correspondent à ces dernières, pour revenir aux données 
initiales notées X’™ , écrivons 


Ÿe = ÿ1- res gif 


O yini 
j 


= [fin + X™ Ben, (9.6) 


où Bem correspond aux B pour les variables explicatives initiales et fin vaut yl — 
Xini 3... Nous sommes donc revenus aux données initiales (non centrées/réduites). 
Cette dernière formulation est intéressante pour 
— connaître le rôle des variables initiales et ne pas seulement se contenter du 
modèle dans les composantes qui sont souvent peu explicables en termes métier ; 
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— effectuer facilement de la prévision avec des nouvelles valeurs de X. Ainsi si 
nous obtenons une nouvelle valeur 2,41 = (@n41,1,°"* »&n41,p), il faut d’abord la 
centrer et la réduire avec les valeurs des moyennes et des écarts-types empiriques 
utilisées pour centrer et réduire les variables du tableau initial puis utiliser Be. 
Nous pouvons prédire yy+1 par : 


Pp 
ati = [fin + >. LTn+1,j [bsn]; (9.7) 
j=1 


9.1.5 La régression sur composantes en pratique 
Nous reprenons les données ozone : 
> ozone <- read.table("ozone.txt",header=TRUE,sep=";",row.names=1) 


Nous pouvons effectuer une régression avec toutes les variables potentiellement 
explicatives : 


> modeleinit <- 1m(03 ~ ., data = ozone[,1:10]) 
> round(coefficients(modeleinit),2) 
(Intercept) T12 T15 Ne12 N12 S12 
54.73 20735 1.50 -4.19 1.28 3.17 
E12 W12 Vx 03v 
0.53 2.47 0.61 0.25 


> BIC(modeleinit) 
[1] 431.8923 


En utilisant le package leaps et le critère BIC, nous avions retenu 5 variables. 


> library (leaps) 

> choix <- regsubsets(03 ~ .,nbest=1,nvmax=10,data=ozone[,1:10]) 

> resume <- summary(choix) 

> indmin <- which.min(resume$bic) 

> nomselec <- colnames(resume$which) [resume$which [indmin,]] [-1] 

> formule <- formula(paste("03-",paste(nomselec,collapse="+"))) 

> modeleBIC <- 1lm(formule,data=ozone[,1:10]) 

> round (coefficients (modeleBIC) , 2) 

(Intercept) T15 Ne12 Vx 03v 
61.83 1.06 -3.99 orsi 0.26 

> BIC(modeleBIC) 

[1] 415.8866 


Le modèle choisi avec le critère de choix BIC a un BIC plus petit que le modèle 
initial puisque c’est le critère que nous minimisons. Travaillons maintenant avec 
les variables orthogonalisées. La première étape consiste à centrer et réduire les 
variables potentiellement explicatives. 
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> X <- ozone[,2:10] 
> Xbar <- apply(X, 2, mean) 
> stdX <- sqrt(apply(X, 2, var)) 
“ > Xcr <- scale(X, center = Xbar, scale = stdX) 


Il faut ensuite « orthogonaliser » la matrice Xcr en utilisant la fonction effectuée 
à l’exercice (9.7). 

En utilisant le critère de BIC, nous trouvons 2 composantes (c'est-à-dire que nous 
projetons dans un sous-espace de dimension 2). Avec les différentes formules pré- 
sentées dans le chapitre, nous revenons d’abord à B puis nous estimons fi et G. 
Nous obtenons le modèle suivant : 


| (Intercept) T12 T15 Ne12 N12 $12 
| 52.79 0.40 0.47 Oe -0.87 0.02 
E12 W12 Vx 03v 
1.06 -0.85 0.23 0.34 


Nous calculons le BIC de ce modèle avec 4 paramètres (2 coefficients pour les 
2 composantes, 1 coefficient correspondant à l’intercept et 1 coefficient pour l’es- 
timateur de ø), il vaut 413.64. Le modèle obtenu est donc meilleur que le modèle 
obtenu par choix de variables. 

Une autre façon de procéder et qui est implémentée dans la fonction per du 
package pls est un choix séquentiel du nombre de composantes, choix effectué par 
validation croisée par bloc. Le principe général de validation croisée est expliqué 
en détail dans la section 10.1 (page 237, du chapitre 10) et son application pour 
le choix de composantes est exposé en section 9.1.3 (page 221). 

Nous contrôlons la graine du générateur afin d’obtenir toujours la même partition 
pour toutes les méthodes de ce chapitre. 


> library(pls) 
> set.seed(87) 


> cvseg <- cvsegments(nrow(ozone), k = 4, type = "random") 

### modeles 

> modele.pcr <- pcr(03 ~ ., ncomp=9, data=ozone[,1:10], scale=T, 
+ validation = "CV", segments = cvseg) 


> msepcv.pcr <- MSEP(modele.pcr ,estimate=c("train","CV")) 
> msepcv.pcr 
(Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 
train 559.8 188.7 186.5 185.2 179.8 158.8 
CV 582.9 260.4 260.6 278.2 271.3 239.3 
6 comps 7 comps 8 comps 9 comps 
train 152.0 143.9 142.5 139.7 
CV 248.1 242.1 244.0 239.4 


La régression sur composantes principales est conduite simplement grâce à la 
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fonction pcr. Ici nous pouvons avoir au maximum 9 composantes principales 
(min(na,p) = p = 9). La procédure de validation croisée 4 blocs choisit de retenir 
5 composantes car l'erreur de prévision (CV) est la plus petite avec 5 composantes. 
Nous évaluons donc le modèle final. 

> npcr <- which.min(msepcv.pcr$val["CV",,1])-1 

> modele.pcr.fin <- pcr(03 ~ ., ncomp = npcr, scale = TRUE, 

+ data = ozone[,1:10]) 


Les valeurs des coefficients sont obtenues dans le modéle centré réduit. Afin de 
retrouver les coefficients dans l’échelle initiale, il faut les diviser par les écarts- 
types respectifs, puis calculer l’intercept comme indiqué dans l’équation 9.6. Nous 
obtenons alors 


(Intercept) T12 T15 Ne12 N12 $12 
45.1 0.63 0.67 -2.78 -0.16 (0) cali) 

E12 W12 Vx 03v 

0.35 -0.85 0.18 0.34 


Nous calculons le BIC de ce modèle avec 7 paramètres (5 coefficients pour les 
5 composantes, 1 coefficient correspondant à l’intercept et 1 coefficient pour l’es- 
timateur de o), il vaut 422.65. Le modèle obtenu par le package est donc moins 
bon au sens du BIC que le modèle trouvé en utilisant l’ordre des variables induit 
par |} Al. 

La décomposition du tableau X en composantes principales ne tient pas compte de 
la variable cible Y. Il n’y a pas de raison de croire que les vecteurs propres associés 
aux plus grandes valeurs propres soient les meilleures combinaisons linéaires des 
variables explicatives pour expliquer Y. Nous allons maintenant proposer une mé- 
thode alternative pour construire des vecteurs orthogonaux qui tiennent compte 
de leur covariance avec la variable Y à expliquer. 


9.2 Régression aux moindres carrés partiels (PLS) 


Afin de conserver des notations simples, nous considérerons que les variables X et 
Y sont centrées réduites. A l’image de la régression sur composantes principales, 
nous sommes intéressés par de nouvelles variables explicatives t®,t®,...t®, 
combinaisons linéaires des variables de départ #0) = X Čj, qui soient orthogonales 
entre elles et classées par ordre d'importance. Rappelons que les composantes 
principales Xj obéissent à ces mêmes critères. Cependant, le choix de ces compo- 
santes 40) doit être dicté, non pas par la part de variabilité qu’elles représentent 
parmi les variables explicatives originales (comme en régression sur composantes 
principales), mais par leur lien avec la variable à expliquer. 

Pour cela une procédure itérative va être utilisée. 
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Définition 9.1 
Quand Y est univarié, la régression PLS est appelée PLS1 et se définit itérative- 
ment. 


— 1" étape : le tableau X est noté X® et Y noté YU). La première composante 
PLS t™® € R” est choisie telle que 


7) = argmax a oe 
t=X (0 w,weER?, |jw||2=1 


Ensuite nous effectuons la régression univariée de Y sur t et obtenons 
YO = ryt) + ê 


où le coefficient rı estimé par MC vaut <tY), YY > / < t,t > et ê = 

Pœ Y ® sont les résidus de la régression simple sans constante ; 

- 2° étape : soit Y® = Po Y ® = Y) — 7,40) = & la partie non encore 
expliquée de Y. Soit X°) = Posie la partie de X® n'ayant pas encore servi 
à expliquer. La seconde composante PLS est choisie telle que 


72) = argmax rae eee 
t=X@2)w,wER?,||w||2=1 


Ensuite nous effectuons la régression univariée de Y) sur t®) 
YO = pot +ê 


où T2 E R est le coefficient de la régression estimé par MC et ê = Piy 3 
— k° étape : soit Y ®) = Pa- YED = êk la partie non encore expliquée de 
Y. Soit X* = aA la partie de X‘*-)) n’ayant pas encore servi à 
expliquer. La k° composante PLS est choisie telle que 


ak) = argmax Sos 
t=X(k-1)w,wER?,||w||2=1 


Ensuite nous effectuons la régression univariée de Y®) sur t™® 
YE) = ppt) 4 êp 
où rx € R est le coefficient de la régression estimé par MC et êk = Pig eV, 


Remarque 

La régression PLS cherche une suite de composantes PLS qui soient, par construc- 
tion, orthogonales. Puisque t0?) est une combinaison linéaire des colonnes de XO), 
qui est par construction dans le complément orthogonal de $(¢™,...,t9-)), le 
vecteur #0) sera orthogonal à t™,...,t9-)). Ces composantes sont choisies comme 
maximisant la covariance (empirique) entre Y et une composante t quand X et Y 
sont centrées au préalable. 
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Théorème 9.1 
Nous pouvons donc écrire la méthode PLS comme 


Pavé. + PY O + ê 
Y = rth... 4 ryt + Sy, 


< 
| 


avec Êk = Po = Paw, t) € 
La preuve découle de la définition en notant que les composantes PLS sont ortho- 
gonales entre elles. 


9.2.1 Algorithmes PLS 


A chaque étape nous cherchons à maximiser une fonction sous contrainte. Après 
introduction du lagrangien, nous avons à chaque étape j la fonction suivante à 
maximiser : 


; ; 1 
L(w,t) = YOXDw- rle? —1). 


Le facteur —1/2 ne change pas fondamentalement le résultat, mais il permet une 
simplification des calculs. Une condition nécessaire d’optimum est alors donnée 
par l'annulation de ses dérivées partielles au point optimum (w), Tj) donnant 


XY — rjw) = 0 


dh ag ES i 


La première équation montre que w) est colinéaire au vecteur X/Y “) et la seconde 
montre qu’il est normé. Si l’on veut un maximum, il suffit de prendre le vecteur 
XG)YG)/|X0)Y0)|. Le vecteur de signe opposé donnant le minimum. 

Lorsque Y est une matrice n x q, les différents algorithmes de PLS correspondent à 
différentes méthodes de recherche du premier vecteur singulier de Y’X : puissance 
itérée (algorithme nipals), décomposition en valeurs singulières classique (SVD) 
ou encore diagonalisation de Y’X X'Y. Les estimations peuvent donc être sensi- 
blement différentes. 


Remarque 

L’algorithme nipals propose de calculer la régression PLS même si l’on possède 
des valeurs manquantes. Pour cela, dès qu’une valeur manquante est rencontrée, 
elle est ignorée. Ainsi le calcul devient : 


[Y'x]; = So yi Xi 


i=1...n,yi ou Xij non manquants 


ce qui revient, après le centrage et la réduction, à remplacer les valeurs manquantes 
dans les données centrées-réduites par la valeur 0. 
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9.2.2 Choix de composantes/variables 


Le calcul des composantes se fait de façon séquentielle en tenant compte de Y 
et il faut maintenant choisir le nombre de composantes. En régression PLS, on 
se focalise sur le nombre de composantes k et on conserve alors les k premières 
composantes. En général, on recherche une taille de modéle k, ou ici un nombre 
de composantes k, qui soit compris entre 1 et une taille maximum K. Cette taille 
maximum peut étre choisie comme K = rang(X) ou comme la taille au-dela de 
laquelle il est certain que les composantes ne serviront a rien. 


Approche choix de variables 


Les modèles étant emboités, il serait possible d’utiliser les approches choix de 
variables et une approche que l’on trouve dans la littérature est celle basée sur le 
calcul d’un AIC ou BIC 


BIC(k) = n(1+log2r) gig MN 


(k+ 1)logn 


AIC(k) = n(1+ log 27) alp © 


où SCR(k) est la somme des carrés résiduels dans le modèle avec k composantes. 


Approche utilisant la validation croisée 


La validation croisée (voir algorithme 3 p. 238) est en général la procédure la 
plus utilisée en régression PLS. Le principe est toujours le méme, a savoir qu’on 
divise le jeu de données initial en b parties distinctes approximativement de méme 
taille. Pour une partie donnée, par exemple la 7°, on met de côté cette 7° partie 
des données pour effectuer la prédiction après avoir estimé les modèles sur toutes 
les autres observations appelées souvent données d’apprentissage. Et on répète ce 
travail sur les b parties. Ainsi à la fin de la procédure, tous les individus ont été 
prévus une fois. On évalue la qualité des différents modèles testés (ici le modèle 1 
utilise uniquement la première composante, puis le modèle 2 les 2 premières...) 
en définissant un critère. Le critère proposé est l’erreur quadratique moyenne de 
prévision (EQMP) qui est la moyenne des erreurs de prévision au carré 


EQMP(j) = = PPOs, j) VD 


Y? (pls, j) désigne la prévision de l’observation 7 avec la régression sur j compo- 
santes PLS. Le nombre de composantes choisi ? est celui qui minimise la moyenne 
des erreurs de prévision au carré argmin; EQMP(j). La encore d’autres critères 
que l’EQMP (comme le MAE) pourraient être choisis. 
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9.2.3 Retour aux données d’origine 


Une fois le nombre de composantes sélectionné, il est intéressant de revenir aux 
données initiales. Le modèle exprimé avec les variables 40) n’est pas facilement 
interprétable en termes de variables initiales X. PLS va sélectionner un bon sous- 
espace mais ne sélectionnera pas de variables. Pour interpréter un modèle PLS, 
il faut revenir aux données initiales. Pour cela, il faut remplacer les composantes 
tO) en fonction de Xw), ce qui fait intervenir non pas les variables explicatives 
originales, mais celles de l'étape j. Il faut donc ré-exprimer les composantes PLS 
en fonction du tableau initial de manière itérative, objet du théorème suivant. 
Théorème 9.2 

Les composantes PLS peuvent s'exprimer en fonction des variables initiales sous 
la forme de combinaisons linéaires 


t) =X00), 1<j<k, 


w est défini par 
j 
alies DO! tO) UO" X) wy), 


La preuve est a faire a titre d’exercice (voir exercice 9.5). 
Nous pouvons réécrire le modèle PLS final à k composantes en fonction des va- 
riables explicatives. 


Théorème 9.3 
La méthode PLS à k composantes s'écrit 


Y = Xprs(k) + êr, 


où êp est le résidu final Pi (Y ®) = Pouw, 10) (VY) et Bprs(k) = ro) + 


wet rð). 


Afin de retrouver les valeurs ajustées, nous calculons simplement 
Ypus(k) = Xôrrs(k), 


et si nous voulons revenir aux valeurs initiales (non centrées et réduites) que nous 
noterons X™ et Y™ 


Pini (k) = Gyini [X vrs (k)] +g™1. 


Si nous obtenons une nouvelle valeur 27,41 = (@n+41,1,°"* »£n+1,p), il faut d’abord 
la centrer et la réduire avec les valeurs des moyennes et des écarts-types empiriques 
utilisées pour centrer et réduire les variables du tableau initial puis calculer 


Prsn4ilk) = Po - 1 [prs(k )) +y. 
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Au contraire de la régression (MC ou MCG), l’estimateur de la régression PLS 
n’est pas une fonction linéaire de Y. En effet, la prévision ne peut pas être mise 
sous la forme Y(k) = AY où A serait une matrice non dépendante de Y. 


Une propriété notable de PLS est que Vk, ||Gpis(k)|| < ||8||, où Ê est l’estimateur 
des MC. De plus, la norme ||@prs(k)|| augmente avec k (De Jong, 1995). 


9.2.4 La régression PLS en pratique 


Nous reprenons les données ozone : 
> ozone <- read.table("ozone.txt",header=TRUE, sep=";",row.names=1) 


Le code est quasiment identique a celui écrit pour per 


> library (pls) 

> set.seed(87) 

> cvseg <- cvsegments(nrow(ozone), k = 4, type = "random") 

> n.app <- nrow(ozone) 

### modeles 

> modele.pls <- plsr(03 ~ ., ncomp=9, data = ozone[,1:10],scale=T, 
+ validation = "CV", segments = cvseg) 


> msepcv.pls <- MSEP(modele.pls ,estimate=c("train","CV")) 
> msepcv.pls 
(Intercept) 1 comps 2 comps 3 comps 4 comps 5 comps 
train 559.8 173.9 150.9 146.9 144.2 142.1 
CV 582.9 251.9 248.4 245.3 234.6 241.7 
6 comps 7 comps 8 comps 9 comps 
train 141.4 140.9 139.8 139.7 
CV 243.6 234.7 239.6 239.4 


La régression PLS est conduite simplement grâce à la fonction plsr. Ici nous pou- 
vons avoir au maximum 9 composantes principales (min(n,,p) = p = 9). La pro- 
cédure de validation croisée 4 blocs choisit de retenir 4 composantes car l’erreur 
de prévision (notée CV) est la plus petite avec 4 composantes. Nous évaluons donc 
le modèle final. 


> npls <- which.min(msepcv.pls$val["CV", ,])-1 
> modele.pls.fin <- plsr(03~ . , ncomp = npls, scale = TRUE, 
+ data = ozone[,1:10]) 


Les valeurs des coefficients sont obtenues dans le modéle centré réduit. Afin de 
retrouver les coefficients dans l’échelle initiale, il faut les diviser par les écarts- 
types respectifs, puis calculer l’intercept comme indiqué dans l’équation 9.6. Nous 
obtenons alors : 
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(Intercept) T12 T15 Ne12 N12 $12 
63.08 0.42 0.53 -4.42 0.37 1.61 

E12 W12 Vx 03v 

0.98 0.56 0.25 0.26 


Le BIC de ce modèle avec 6 paramètres (4 coefficients pour les composantes sélec- 
tionnées, 1 coefficient pour l’intercept et 1 coefficient pour l’estimateur de g) vaut 
413.94. Le modèle obtenu par le package est donc très légèrement moins bon que 
le modèle trouvé en utilisant l’ordre des variables induit par |ô; VX. 


9.3 Exercices 


Exercice 9.1 (Questions de cours) 

1) La régression biaisée est en général utilisée lorsque l'hypothèse ci-dessous n'est pas 
satisfaite : 

A. Hı concernant le rang de X (matrice du plan d'expérience), 

B. Hz concernant l'espérance et la variance des résidus, 

C. H3 concernant la normalité des résidus. 
2) Lorsque la matrice (X'X) n'est pas inversible, l'estimateur des moindres carrés 

A. existe et est unique, 

B. existe et n'est pas unique, 

C. n'existe pas, aucun estimateur ne minimise les moindres carrés. 
3) Lors d’une régression PCR, la premiére composante principale est la composante dont 
le produit scalaire avec Y est : 

A. maximum, 

B. minimum, 

C. aucun rapport. 
4) Si rang(X) = p, effectuer une régression PCR avec toutes les composantes donne les 
mémes résultats qu’effectuer une régression MC classique : 

A. toujours, 

B. jamais, 

C. aucun rapport. 
5) Nous pouvons calculer une régression PCR avec k composantes en effectuant k régres- 
sions univariées : 

A. faux, 

B. vrai, 

C. cela dépend des données. 
6) Lors d'une régression PLS, la première composante PLS est la composante dont le 
produit scalaire avec Y est : 

A. maximum, 

B. minimum, 

C. aucun rapport. 
7) Effectuer une régression PLS avec k composantes ou effectuer une régression PCR avec 
k composantes également donne les mêmes résultats : 

A. toujours, 

B. jamais, 

C. aucun rapport. 
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Exercice 9.2 (Régression sur composantes) 
L'objectif de cet exercice est de proposer un code R qui fasse une régression sur composantes 
principales et choisisse ces composantes avec le BIC ou |’AIC. 


Exercice 9.3 (Régression sur composantes) 
Proposer un code R qui effectue une régression sur composantes principales et qui choisit les 
composantes avec les différents critéres proposés ci-dessus. 


Exercice 9.4 (Régression sur composantes) 

L'objectif de cet exercice est de proposer un code R qui fasse une régression sur un nombre nb 
donné de composantes principales. Ces composantes sont prises en conservant l’ordre obtenu 
avec l'ACP. 

Comparer vos résultats avec les résultats obtenus avec la fonction pcr du package pls. At- 
tention, les coefficients donnés par la fonction pcr sont donnés pour les variables initiales 
centrées-réduites. 


Exercice 9.5 ({Théoréme 9.2) 
Démontrer par récurrence le théorème 9.2 (indice : montrer aussi que xX = Vrs, = 


wO (Ot) 40 X)). 


Exercice 9.6 ({Géométrie des estimateurs) 
Soit les observations suivantes : 


Xı 1 0 0 


Xə 1/V3 2/V3 0 
Y 1.5 0.5 1 
Tableau 9.1 — Observations d’une régression. 


Soit le modèle de régression multiple (sans constante) suivant : 
Y = bı Xı + b2X2 +€. 


Les régressions ridge, lasso, PCR et PLS seront effectuées sur les variables sans centrage ni 
réduction. 
1) Vérifier que S(X) = (X) est le plan de R? engendré par {7, J}. 
2) Calculer Y = PxY. 
3) Représenter dans le plan (i, j) les points X1, Xə et Y. 
4) Que vaut p ici? Représenter dans IR? l'ensemble Bı des 8 € IR? vérifiant la contrainte 
= 6? = ||8l| = 1. Faire de même avec Bz l'ensemble des 8 € IR? vérifiant la contrainte 


? 181 = llh =1. 
5) La matrice X peut être identifiée à une application linéaire de R? dans R°. Donner 
intuitivement la forme des ensembles Bı et B2 lorsqu'on leur applique X (ellipse, cercle, 
parallélogramme...). Ces ensembles notés respectivement Ci et C2 sont définis par C1 = 
{z € R?,J8 € Bi: z= XB} et C2={2€ER°,38E Bo: z= XB}. 
6) Vérifier grâce à un ordinateur que les formes de C et C2 données à la question précé- 
dente sont justes. Dessiner Cı et C2 sur le plan (7, J) de la question 3). 
7) Représenter géométriquement Ne et X Basso sur le plan précédent en utilisant Cy 
et C2 comme contraintes pour la régression ridge et lasso respectivement. 
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8) Que représente l'ensemble C1 en termes de « composante » ? Trouver graphiquement la 
première composante PLS grâce à sa définition. Que représente l'ajustement de Y par la 
régression PLS à une composante, ajustement noté Yprs(1), en termes de projection de Y, 
c'est la projection de Y sur ...? Représenter la réponse sur le graphique. 
9) Calculer X’X, trouver le premier axe principal et en déduire la première composante 
principale. 
10) Figurer la droite portée par la première composante principale Xj (géométriquement il 
s'agit du grand axe de C1). Que représente X{ (Gj en termes de projection de Y, c'est la 
projection de Y sur ... ? Représenter la réponse sur le graphique. 


Exercice 9.7 (Orthonormalisation) 
L'objectif de cet exercice est de proposer un code R qui prenne en entrée une matrice centrée- 
réduite et retourne sa version orthonormalisée. 


9.4 Notes 


9.4.1 ACP et changement de base 


L’ACP de X (ou du triplet (X, Ip, In/n)) peut être présentée comme la recherche d’un 
nouveau repére orthonormé pour les observations et d’une maniére symétrique pour les 
variables mais nous ne parlerons pas de ce deuxième aspect. Lorsque l’on utilise l'ACP 
sur des données réelles, il est d’usage de centrer réduire au préalable le tableau X et 
c’est donc ce cas que nous envisagerons ici. Rappelons que les observations à € {1,...,n} 
sont tout simplement les lignes du tableau de données X et sont donc des éléments de 
R?. Un nouveau repère orthonormé a!,a?... va être choisi (par définition de l'ACP) 
afin que les coordonnées de tous les individus sur chaque axe soient les plus dispersées 
possibles. La suite d’axes va être construite en partant du premier : le premier axe a! est 
celui où les coordonnées sont le plus dispersées, le second est orthogonal au premier et 
tel que les coordonnées soient les plus dispersées (en sachant que le premier axe restreint 
la recherche), etc. La dispersion des coordonnées des individus 7 sur l’axe 1, ou inertie 
associée à l’axe 1, est calculée comme la somme des coordonnées : rate) /n. Cet 
objectif (pour laxe 1) s’écrit plus simplement comme ||&'||?/n. 

Avec cette définition, ACP revient à diagonaliser la matrice L(X ‘X) et ses vecteurs 
propres normés à l'unité sont les axes (appelés axes principaux) a',a?... La matrice 
étant réelle de la forme M’M, elle est orthogonalement diagonalisable (car symétrique) 
et toutes ses valeurs propres sont positives ou nulles. La suite des axes orthonormés est 
donc obtenue en ordonnant les valeurs propres dans l’ordre décroissant x > Ne Deceit: 
et en donnant les vecteurs propres associés a’,a”.... Dans la très grande majorité des 
cas pratiques, la matrice X est centrée réduite et la matrice L(X ‘X) s’interprète alors 
comme la matrice des corrélations entre variables. Enfin, les vecteurs de coordonnées 
&,& ... sont appelés composantes principales normées à la valeur propre. Comme il s’agit 
de coordonnées sur des axes orthonormés, ces coordonnées sont calculées comme č = 
Xa',@ = Xa?.... Cela fait donc apparaître deux choses : les composantes principales 
sont des vecteurs de R” donc de nouvelles variables, et elles sont construites comme 
combinaisons linéaires des variables de X. Enfin en considérant les produits scalaires 
< @,@ > et en remplaçant č par sa définition Xa’ et avec l'information que les a’ sont 
des vecteurs propres orthonormés de A(X 'X), on en déduit que la famille des composantes 
principales &!,& ... est une famille orthogonale et que les normes carrés de ces vecteurs 
valent À;, la valeur propre associée à l’axe i. En ACP, une étape de sélection du nombre 
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d’axes est intercalée avant l’analyse en limitant celle-ci aux axes porteurs d’information, 


À 


c'est-à-dire ceux qui ont un grand pourcentage d'inertie : a Cette étape de choix 


i=1 a 

des axes sera revisitée dans le cadre de la régression. 

Si nous retournons au cadre de la régression, en supposant que les variables explica- 
tives sont toutes centrées réduites, alors nous retombons bien sur le cadre envisagé en 


introduction : si nous diagonalisons (X’X), nous obtenons une suite de vecteurs propres 


normés à l’unité a!,a?... que nous pouvons ordonner en fonction des valeurs propres 
décroissantes 41 > À2 >... Ces valeurs propres sont simplement celles de ACP multi- 
pliées par n (ie. Ay = ni). En construisant les composantes principales &!,& ... grâce 
à č! = Xa!,& = Xa’... nous obtenons les nouvelles variables orthogonales que nous 


allons regrouper dans une matrice : 
X*=(@|#|...|@). 


Avec ces nouvelles variables explicatives X*, nous souhaitons utiliser un modèle de ré- 
gression (multiple, ridge, lasso, etc.) pour expliquer Y. Sachant que les variables de X* 
sont issues du tableau centré réduit X, elles sont elles-mêmes centrées réduites. Il n’y 
a donc pas possibilité d’avoir autre chose qu’un modèle autour de 0 (les variables sont 
centrées), ce qui n’est pas le cas pour Y. Le modèle de régression doit donc ajouter un 
coefficient constant u. Le modèle que l’on souhaiterait utiliser est donc le suivant 


Y = ul + X*8* +e". 


Ce modèle est en l’état peu praticable dans le sens où nous n’avons pas encore fait 
apparaître de lien avec les variables explicatives originelles et fait apparaître un nouveau 
vecteur d’erreur €*. 

Rappelons que chaque colonne @ de X* est construite grâce à & = Xa’, nous en dédui- 
sons que matriciellement, pour toutes les colonnes, 


X*= XA, 


où la matrice A contient les p axes principaux a!,...,a? rangé, en colonnes. Ensuite 
rappelons que la diagonalisation de X’X donne matriciellement 


X'X = AAA’ 
avec A la matrice orthogonale des axes principaux orthonormés (A’A = AA’ = Ip) et 
A = diag(\1,...,Ap) la matrice diagonale des valeurs propres ordonnées. 


Notre modèle de régression classique (avec variables centrées réduites, d’où la constante 
p) est le suivant 


Y=pl+XG+e. 
En utilisant X* = XA et le fait que AA’ = Ip, nous obtenons 


Y = pl + (XA)(A’B) +e 
Y = p1 + X*8* +e 


et nous avons obtenu une réécriture de notre modèle de régression classique en termes de 
variables explicatives orthogonales, les composantes principales. 
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9.4.2 Colinéarité parfaite : |X’X| = 0 
Reprenons l’équation (9.1) 
X'X = PAP. 


Le rang de X vaut maintenant k avec k < p, nous avons donc les (p—k) dernières valeurs 
propres de (X’X) qui valent zéro, \,41 = ++: = Ap = 0. Cela veut dire que pour tout 
i > k, nous avons 


X}/ Xf = À =0. (9.8) 


Décomposons la matrice A en matrices blocs 


A 0 : 
À = n F Ay = diag(à1,.. . , Ak), 


et décomposons la matrice orthogonale P de taille p x p qui regroupe les vecteurs propres 
normés de X’X en deux matrices P; et Pz de taille respective p x k et p x (p — k). Soit 
P = |P, P2], nous avons alors 


X* = [XT, X3] = [X Pi, X Po]. 


Cherchons maintenant la valeur de X P2. Comme le rang de X vaut k, nous savons que 
la dimension de S(X) vaut k et de même pour la dimension de S(X'X). Ce sous-espace 
vectoriel possède une base à k vecteurs que l’on peut choisir orthonormés. Nous savons, 
par construction, que P; regroupe k vecteurs de base orthonormés de S(X'X) tandis que 
P> regroupe p — k vecteurs orthonormés (et orthogonaux aux k de P:) qui complètent 
la base de S(X'X) afin d’obtenir une base de R?. Nous avons donc que, quel que soit 
u € S(X'X), alors 


uw Po = 0. 


Prenons u # 0 et comme u € S(X'X), il existe y € IR? tel que u = X’Xy 4 0. Nous 
avons donc 


YX'XP = 0, 
pour tout y € R? et donc X’X P2 = 0, c’est-à-dire que X Pz = 0. Nous avons alors 
X* = [X}, X3] = [X Pı, XPa] = [XPi, 0). 


Au niveau des coefficients du modèle étoile, nous avons la partition suivante : 


. {AN (PB 
p-a j=] 


Grace à la reparamétrisation précédente, nous avons, avec X3 = X P> = 0, 
Y = X*P* +e 

Xi 6 + X3B3 +e 

= XI +e. 
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Cette paramétrisation nous assure donc que les moindres carrés dans le modèle initial 
et dans le modèle étoile sont égaux et nous allons donc utiliser le modèle étoile. Par les 
MC, nous obtenons B} = (XY XT) XY et nous posons B3 = 0, ce qui ne change rien 
car X3 = 0. Nous obtenons l’estimateur de la régression sur les k premières composantes 
principales (principal component regression : PCR) 


Bi = AT PiX'Y, 
de variance 
v(i) = (XXI) = 0A. (9.9) 


La stabilité des estimateurs peut être envisagée par leur variance, plus celle-ci est grande, 
plus l’estimateur sera instable. Cette variance dépend ici du bruit qui fait partie du 
problème et de À;. Une très faible valeur propre induit une grande variance et donc un 
estimateur instable et des conclusions peu fiables. 

Nous avons donc que Bs minimise le critère des MC pour le modèle étoile. Comme les 
MC du modèle étoile et ceux du modèle initial sont égaux, à partir de Bs , le vecteur 
des coefficients associés aux composantes principales, nous pouvons obtenir simplement 
Bbcr, le vecteur des coefficients associés aux variables initiales, par 


Beor = PÊ. 


Ce vecteur de coefficient minimise les MC du modèle initial. Le résultat est donc iden- 
tique au paragraphe précédent à ceci près que l’on s’arréte aux k premières composantes 
principales associées aux valeurs propres non nulles de (X'X). 

Cela suggère le fait que l’on peut trouver une valeur, pour l’estimateur de la régression 
B, qui est égale a Be. Mais nous pourrions trouver une infinité d’autres B qui seraient 
aussi solution de la minimisation des MC. Ils seraient tels que Bs # 0. Cela donnerait une 
estimation B =P, CH + Po Be. En placant cette valeur dans les moindres carrés, cela donne 
exactement les mémes moindres carrés que ceux obtenus par Breer. Nous retrouvons là 
le fait que B n’est plus unique car Hı n’est plus vérifiée. En revanche, nous avons que 
Bbcr est unique. 

Puisque les résultats sont conservés quand l’on s'arrête à k, ce paragraphe suggère aussi 
que nous pouvons choisir une valeur de k de sorte que les valeurs propres associées 
{Aj Wey soient suffisamment différentes de 0, éliminant ainsi les problèmes de quasi non- 
inversibilité et de variance trés grande. Evidemment, si l’on élimine les composantes 
principales associées à des valeurs propres non strictement nulles voire suffisamment 
grandes, la solution des MC dans le modèle initial et celle dans le modèle étoile seront 
différentes. Cependant, dans l’approche régression sur composantes principales, nous ne 
garderons que les estimateurs stables (i.e. de faible variance). Cette différence de moindres 
carrés est le prix à payer afin d’obtenir une solution unique et stable. 


Chapitre 10 
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10.1 Erreur de prévision et validation croisée 


Nous avons proposé dans les chapitres précédents plusieurs méthodes permettant 
d'expliquer une variable Y continue par p variables X1,...,X, (continues et/ou 
qualitatives). La question du choix de la « meilleure » méthode pour répondre 
à un problème de régression se pose alors naturellement. La notion de meilleure 
méthode, ou de meilleur modèle, nécessite de définir un critère qui permettra de 
comparer les différentes options. De nombreux critères ont déjà été proposés pour 
mesurer la performance d’une méthode. On peut par exemple citer l AIC, le BIC, le 
Cp de Mallows (voir section 7.3). Ces critères, qui permettent notamment de choisir 
les variables dans un modèle linéaire, ne peuvent généralement pas être utilisés 
pour comparer toutes les méthodes (une régression linéaire avec une régression 
PLS par exemple). Dans ce cas, les approches classiques consistent 4 se baser sur 
des critères de prévision : on confronte les valeurs prédites par chaque méthode 
aux valeurs observées. 

Nous rappelons que chaque méthode fournit un algorithme de prévision, cet algo- 
rithme est représenté par une fonction m : R? — R qui, à une nouvelle observation 
x € R?, renvoie une prévision m(x) € R. Les critères qui permettent de mesurer la 
performance d’un algorithme de prévision sont le plus souvent basés sur une fonc- 
tion de perte £: R x R — R* telle que (y, m(x)) mesure l’erreur ou le coût de la 
prévision m(x) par rapport à l’observation y. En régression, on utilise souvent la 
perte quadratique L(y, m(x)) = (y — m(x))?. 

Nous rappelons qu’il n’est pas souhaitable d'utiliser les mêmes données pour esti- 
mer les paramètres du modèle et calculer l’erreur quadratique de prévision (voir 
section 7.2.4). On a souvent recours à des méthodes de ré-échantillonnage de type 
validation croisée dans ce cas-là. Ces techniques ont été présentées brièvement 
dans certaines parties précédentes. Nous rappelons ici les algorithmes d’apprentis- 
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sage/validation et de validation croisée dans un cadre général. 


Algorithme 2 Apprentissage/Validation pour le calcul d’une erreur de prévision. 


Entrées : 

— les observations (x1,y1),..., (Zn, Un); 

— {A,V} une partition de {1,...,n} en deux parties ; 
— un algorithme de prévision ; 

— une fonction de perte 0: R x IR — R+. 


1. Ajuster l'algorithme de prévision en utilisant uniquement les données d’appren- 
tissage {(x;, yi) : à € A}. On désigne par M l'algorithme obtenu. 

2. Calculer la valeur prédite par l’algorithme pour chaque observation de l’échan- 
tillon de validation : m(a;),7 € V. 


Retourner : i 


pI So (yi, Mas). 


ieV 


Algorithme 3 Validation croisée K blocs pour le calcul d’une erreur de prévision. 


Entrées : 

— les observations (x1,y1),..., (Zn, Un); 

— {T,...,Z«} une partition de {1,...,n} en K blocs; 

— un algorithme de prévision ; 

— une fonction de perte £: R x IR — R+. 

Pour k =1,...,K : 

1. Ajuster l'algorithme de prévision en utilisant l’ensemble des données privé du 
k° bloc, c’est-à-dire {(x;, yi) : i € {1,...,n}\7Zz}. On désigne par Mp l'algorithme 
obtenu. 

2. Calculer la valeur prédite par l’algorithme pour chaque observation du bloc k : 
Mr (di), À € Tp. 


Retourner : 


E 
7 DD Uui, Me (2s). 


k=1 i€Tk 


L’approche apprentissage/validation consiste à séparer les données en deux : une 
partie pour calculer l’algorithme, une autre pour estimer sa performance. L’utilisa- 
teur doit choisir la séparation. L’échantillon d’apprentissage est souvent privilégié. 
En effet, cet échantillon est utilisé pour estimer les paramètres d’un modèle, par 
exemple les paramètres d’un modèle linéaire. Tandis que l’échantillon de validation 
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est utilisé pour estimer uniquement l’erreur de prévision. On prend souvent deux 
tiers ou trois quarts des observations dans l’échantillon d'apprentissage. 

Pour la validation croisée, on doit séparer le jeu de données en K blocs, blocs 
généralement tirés au hasard. Ensuite, la procédure apprentissage/validation est 
répétée K fois en considérant chaque bloc comme échantillon de validation, les 
K — 1 blocs restants constituent l’échantillon d'apprentissage. 

Schématisons cette procédure pour une validation croisée K = 4 blocs en régression 
linéaire multiple. La figure 10.1 représente l’étape de séparation initiale. 


Fig. 10.1 — Validation croisée K blocs (avec K = 4) : étape initiale de séparation 
en blocs. 


Une fois les blocs constitués, nous commençons par utiliser le bloc À en validation, 
les autres en apprentissage (voir fig. 10.2). Les blocs B,C et D sont donc utilisés 
pour estimer le vecteur 6 via une procédure de MCO. On obtient ainsi un B que 
l’on utilise pour prédire le Y des individus du bloc A : § = m(a;) = xf, i € A. 
On note Y le vecteur qui contient ces prévisions. 


ae : 


' Prévision 
B ! du bloc 
X y en validation 


—> f 


! Estimation 
D ' des 
‘ paramètres 


Fig. 10.2 — Validation croisée K blocs (avec K = 4, pour un modèle de régres- 
sion) : seconde étape, le bloc À est utilisé en validation, les autres en apprentissage. 


On répète ensuite cette procédure sur les blocs restants : on considère tout à tour 
les blocs B, C et D comme échantillon de validation afin d’obtenir une prévision 
pour tous les individus (voir fig. 10.3). 
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Fig. 10.3 — Validation croisée K blocs (avec K = 4) : étapes 3, 4 et 5, les blocs 
B,C et D sont respectivement utilisés en validation, les autres en apprentissage. 


On évalue enfin la perte du modèle en confrontant les observations Y aux prévisions 
Y. Pour la perte quadratique, on calculera ainsi 


1E Em- 248) 


k=1 i€Tk 


L’algorithme a été illustré pour K = 4 mais en pratique on utilise souvent K = 10. 
Lorsque K = n, on parle de validation croisée leave-one-out (l'abréviation loo est 
fréquemment utilisée). La validation croisée est souvent privilégiée par rapport 
à la méthode apprentissage/validation. Elle renvoie une prévision pour tous les 
individus et fournit donc une estimation de l'erreur plus stable. Elle est néanmoins 
plus coûteuse en temps de calcul car l'algorithme doit être calculé K fois. 


Remarque 

— Les algorithmes sont ici présentés pour une méthode de prévision. Si cette 
méthode nécessite un découpage des données, il faudra découper uniquement 
l’échantillon d'apprentissage (ou l'échantillon privé du k® bloc pour la validation 
croisée). Si par exemple on souhaite faire de la régression lasso en sélectionnant 
le paramètre de régularisation par validation croisée, alors seul l’échantillon d’ap- 
prentissage (ou léchantillon privé du k* bloc) devra être découpé en bloc pour 
la sélection du paramètre. 

— Lorsque la méthode de prévision dépend d’un paramètre, la valeur de ce para- 
mètre ne sera pas forcément la même à chaque itération de la validation croisée. 
Par exemple, si on utilise une méthode de sélection pas à pas (voir section 7.4.2), 
les variables sélectionnées à chaque étape de la validation croisée ne seront pas 
forcément les mêmes. Les algorithmes 2 et 3 sont utilisés pour choisir une pro- 
cédure (régression linéaire avec toutes les variables ou avec sélection de variable 
ou régression ridge/lasso...). Une fois la procédure choisie, on pourra la réajuster 
sur toutes les données pour obtenir le modèle final. 


Nous proposons maintenant de comparer différentes méthodes pour l’exemple de 
l'ozone. 


Comparaison des différentes méthodes, étude de cas réels 241 


10.2 Analyse de ozone 
Nous avons introduit de nombreuses méthodes basées sur la régression tout au long 


de ce livre et nous allons essayer de les comparer sur le jeu de données d’ozone 
afin d’obtenir la meilleur méthode de prévision de l’ozone. 


10.2.1 Préliminaires 


Commençons donc par importer le jeu de données complet : 


| > ozone <- read.table("ozone_complet.txt", header = T, sep = ";") 
> dim(ozone) 
| [1] 1464 23 


Ce jeu de données comporte 1464 observations et 22 variables potentiellement 
explicatives. Cependant des valeurs manquantes sont présentes, nous allons les 
identifier et les retirer. 


| > indNA <- which(is.na(ozone), arr.ind = T)[,1] | 
| > ozone2 <- ozone[-indNA,] | 


Il reste 1366 observations. La variable à expliquer est max03 et les variables poten- 
tiellement explicatives sont des données météorologiques à différentes heures de la 
journée (9 h, 12 h, 15 h et 18 h), le maximum de la veille max03v. La direction du 
vent est une variable « circulaire » : un vent à 0 degré est un vent du nord mais 
aussi à 360 degrés. Il semble plus logique alors de transformer vitesse et direction 
(qui sont les coordonnées polaires) en coordonnées cartésiennes afin d’obtenir Vx 
(axe est-ouest) et Vy (axe nord-sud). Le choix opéré est d’avoir Vy positif quand le 
vent est au Nord et Vx positif quand le vent est à l’est. Une fois ces transformations 
faites, la variable Vx qui était la projection du vent sur l’axe est-ouest à 12 h est 
redondante avec Vx12, elle est donc enlevée. 

Afin de faciliter la répétabilité par le lecteur, nous fournissons les données trans- 
formées (fichier ozone_transf.txt) que nous importons 


| > ozone <- read.table("ozone_transf.txt", header = T, sep = ";") | 


j 


donnant un jeu de données de 1366 individus et 22 variables (dont une à expliquer). 


10.2.2 Méthodes et comparaison 


Afin de comparer les différents modèles, nous allons appliquer la validation croisée 
avec 10 blocs. La présentation que nous allons faire sera un peu lourde (il va y 
avoir de fortes redondances de codes entre les méthodes) mais devrait permettre 
de bien comprendre le travail à faire. 
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Pour commencer, créons un data-frame qui va contenir les résultats des prévisions 
obtenues avec chaque méthode. Cet objet va donc admettre 1366 lignes qui cor- 
respondent alors aux 1366 observations des données initiales et autant de colonnes 
que de méthodes. Nous préconisons de rajouter une colonne dédiée a la valeur 
observée de Y ici le max03. 


| > RES <- data.frame(Y = ozone$max03) 


Avant d’évaluer par validation croisée 10 blocs, nous effectuons un tirage aléatoire 
affectant chaque observation à € {1,...,n} dans un bloc b € {1,...,10}. Afin 
d’obtenir des blocs dont les effectifs sont équilibrés, nous effectuons une réparti- 
tion séquentielle de chaque observation dans les blocs de la manière suivante : la 
première observation va dans le bloc 1, la seconde dans le bloc 2, ... la 10° dans le 
bloc 10, la 11° dans le bloc 1, la 12° dans le bloc 2 ... 


| > nbbloc <- 10 
| > blocseq <- rep(1:nbbloc, length = nrow(ozone) ) 


Ensuite nous permutons aléatoirement l’appartenance aux blocs, ce qui nous donne 
donc un tirage aléatoire des blocs avec des effectifs équilibrés (résultat dans bloc) : 


| > set.seed(1234) 

> bloc <- sample(blocseq) 
Les méthodes de régression que nous allons comparer sur ces données seront la 
régression multiple, la régression multiple avec choix de variable selon un critère 
BIC, la régression lasso, ridge ou elastic-net et enfin deux types de régression sur 
composantes : PLS et PCR. 


Régression multiple 


Commençons par mettre en œuvre la régression multiple et la régression avec choix 
de variables par BIC (avec un algorithme exhaustif), nous utilisons les ordres R 
présentés à la section 7.5, p. 180. En préalable, chargeons la librairie leaps : 


library (leaps) 
for(i in 1:nbbloc){ 
###MC0 global 
reg <- Im(max03~.,data=ozone[bloc!=i,]) 
RES [bloc==i,"MCO"] <- predict (reg, ozone [bloc==i,]) 
###MCO choix 
recherche <- regsubsets(max03~., int=T, nbest=1, nvmax=22, 
data=ozone [bloc!=i,]) 
resume <- summary (recherche) 
nomselec <- colnames(resume$which) [ 
resume$which[which.min(resume$bic),] ][-1] 
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| formule <- formula(paste("max03~", paste (nomselec,collapse="+"))) 
regbic <- Im(formule,data=ozonel[bloc!=i,]) 

| RES [bloc==i,"choix"] <- predict (regbic, ozone [bloc==i,]) 

) } 


Nous avons donc mis en pratique la régression et la régression avec choix de va- 
riables. Les résultats des prévisions sont dans le data-frame RES. 

Attention, la procédure de choix de variables avec beaucoup de variables et la 
méthode exhaustive peuvent être coûteuses en temps de calculs, nous préconisons 
alors de remplacer l’option par défaut method=exhaustive par method=forward 
par exemple. 


Afin de quantifier l’erreur de prévision que nous faisons, nous pouvons calculer 
l'erreur quadratique moyenne qui vaut 188.7 pour les MCO et 189.9 pour les 
MCO avec choix de variables. Nous pouvons maintenant répéter ce procédé pour 
les autres méthodes. 


Lasso, ridge et elastic-net 


Si nous poursuivons ces comparaisons, nous pouvons utiliser la procédure lasso 
pour effectuer une régression sous contraintes (voir section 8.3.1, p. 199). En préa- 
lable, rappelons que glmnet ne travaille qu'avec des matrices. La fonction mo- 
del.matrix peut être utilisée pour construire la matrice des X. Cette fonction 
permet de plus d'effectuer le codage des variables explicatives qualitatives. 


| ozone.X <- model.matrix(max03-. ,data=ozone) [,-1] 
| ozone.Y <- ozone[,"max03"] 


La premiére colonne de model.matrix représente le coefficient constant (une co- 
lonne de 1) et est traitée séparément par glmnet ; nous l’éliminons donc de la 
matrice X. Pour chaque étape de validation croisée, il faut choisir le À optimal et 
cela est fait grace la fonction cv.glmnet. Voyons comment effectuer ce code 


library (glmnet) 
for(i in 1:nbbloc){ 
XA <- ozone.X[bloc!=i,] 
YA <- ozone.Y[bloc!=i] 
XT <- ozone.X[bloc==i, ] 
###ridge 
rech <- cv.glmnet (XA, YA,alpha=0) 
RES [bloc==i,"ridge"] <- predict(rech, XT, s=rech$lambda.min) 
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###1lasso 

rech <- cv.glmnet(XA,YA,alpha=1) 

RES [bloc==i,"lasso"] <- predict(rech, XT, s=rech$lambda.min) 

###elastic 

rech <- cv.glmnet(XA,YA,alpha=0.5) 

RES [bloc==i,"elastic"] <- predict(rech, XT, s=rech$lambda.min) 
} 


Nous calculons maintenant l’erreur quadratique de prévision et obtenons 


MCO choix ridge lasso elastic 
187.3 188.8 187.8 186.9 187.0 


Régressions sur composantes 


Dans cette section, nous allons implémenter les techniques vues au chapitre 9. Il 
est possible d’utiliser les fonctions proposées en exercice du chapitre 9 ou celles 
du package pls. Rappelons que, pour ces algorithmes, il est nécessaire de trouver 
le nombre de composantes (principales ou PLS). Les fonctions plsr et per choi- 
sissent ce nombre par validation croisée. L’utilisateur doit renseigner le nombre de 
composantes maximum, nous choisissons ici 20. 


library (pls) 

for(i in 1:nbbloc){ 
HHHHHPLS 
tmp <- plsr(max03-.,data=ozone[bloc!=i,],ncomp=20, 

validation="CV",scale=TRUE) 
mse <- MSEP(tmp,estimate=c("train","CV")) 
npls <- which.min(mse$val["CV",,])-1 
mod <- plsr(max03~.,ncomp=npls ,data=ozone[bloc!=i,] ,scale=TRUE) 
RES [bloc==i,"PLS"] <- predict (mod, ozone [bloc==i,] ,ncomp=np1s) 
HHHHHPCR 
tmp <- pcr(max03-.,data=ozone[bloc!=i,],ncomp=20, 
validation="CV",scale=TRUE) 
mse <- MSEP(tmp,estimate=c("train","CV")) 
npcr <- which.min(mse$val["CV",,])-1 
mod <- pcr (max03~.,ncomp=npcr , data=ozone[bloc!=i,] ,scale=TRUE) 
RES [bloc==i,"PCR"] <- predict (mod, ozone [bloc==i,] ,ncomp=npcr) 
} 


Les résultats deviennent maintenant 


MCO choix ridge lasso elastic PLS PCR 
187.3 188.8 187.8 186.9 187.0 187.3 187.3 
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Les MCO donnent de bons résultats comparés aux autres méthodes mais nous 
avons 1366 individus pour 22 variables. Les résultats risquent d’étre différents 
si nous créons ou modifions des variables (features ingeniering). De plus, nous 
remarquons que les résultats obtenus sont trés proches. Ces erreurs dépendent 
bien entendu du découpage en 10 blocs effectué. Afin d’obtenir des résultats plus 
stables, il est courant de répéter cette procédure de validation croisée sur plusieurs 
découpages en blocs et de faire la moyenne des résultats obtenus. Dans la section 
suivante, nous proposons donc de considérer des transformations des variables 
explicatives dans les modèles et de répéter la validation croisée plusieurs fois. 


10.2.3 Pour aller plus loin 


Dans la section précédente, nous avons considéré des modèles linéaires appliqués 
sur les variables explicatives brutes. Dit autrement, nous avons supposé que ces 
variables agissaient de façon linéaire sur la concentration en ozone. Il est bien en- 
tendu possible que cela ne soit pas vrai et que l’effet des variables explicatives soit 
quadratique ou autre. Cet effet est bien entendu difficile à trouver en pratique. 
Dans cette partie, nous proposons d’intégrer des effets polynomiaux et des inter- 
actions. De plus, nous répèterons les algorithmes de validation croisée plusieurs 
fois afin de stabiliser les erreurs calculées. 

Afin de gagner en clarté de code, nous allons proposer une fonction qui, pour un 
bloc b donné, i) estime le modèle sur toutes les données sauf le bloc b, ii) calcule 
la prévision donnée par ce modèle sur les données du bloc 8, iii) évalue la somme 
des écarts quadratiques entre observations et prévisions sur les données du bloc b, 
iv) et enfin en retour, la fonction donne la somme des écarts quadratiques. 

Pour la régression multiple, cela donne : 


sse_reg <- function(don, bloc, b) { 
m_reg <- lm(max03-., data=don[bloc!=b, ]) 
| previsions <- predict(m_reg, don[bloc==b, ]) 
return(sum((don[bloc==b, "max03"] - previsions)~2)) 


E 


Exercice 10.1 (Fonctions R) 
En vous inspirant du code précédent et des codes déja proposés, écrivez 


1. une fonction sse_regbic qui prendrait en argument don, bloc, le nombre de variables 
maximales et le type d'algorithme et qui calculerait l'erreur de prévision obtenue sur les blocs 
par le modèle choisi; 


2. une fonction sse_glmnet qui prendrait en argument don, bloc et alpha et qui calculerait 
l'erreur de prévision obtenue sur les blocs en utilisant ridge, ou lasso ou elastic-net (en fonction 
de a) en ayant choisi le paramètre optimal par la fonction cv.glmnet ; 


3. une fonction sse_pls qui prendrait en argument don, bloc et le nombre de composantes 
maximales et qui calculerait l'erreur de prévision obtenue sur les blocs en utilisant la fonction 
plsr en ayant choisi le nombre de composants optimal ; 
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4. une fonction sse_pcr qui prendrait en argument don, bloc et le nombre de composantes 
maximales et qui calculerait l'erreur de prévision obtenue sur les blocs en utilisant la fonction 
pcr en ayant choisi le nombre de composants optimal. 


Nous pouvons donc évaluer la régression multiple en répétant la procédure de 
validation croisée 10 blocs, 20 fois par exemple en exécutant le code suivant : 


set .seed (1234) 

nbbloc <- 10 

ssereg <- rep(0,20) 

for (r in 1:20) { 
bloc <- sample(1:nbbloc,nrow(ozone) ,replace=TRUE) 
for(b in 1:nbbloc){ 

ssereg[r] <- ssereg[r] + sse_reg(ozone,bloc,b) 

} 

} 

round(mean(ssereg/nrow(ozone)) ,2) 

[1] 188.45 


En faisant tourner tous les modèles précédents 20 fois, nous obtenons 


MCO choix ridge lasso elastic PLS PCR 
188 . 36 189.6 188.66 187.92 187.82 188.27 188.46 


Les modèles donnent quasiment tous les mêmes résultats. Essayons d’améliorer 
le modèle. La façon la plus simple consiste à introduire les interactions entre les 
variables explicatives via les produits 2 à 2 des variables. 


Modèle de prévision avec interactions 


Observons qu’il suffit de changer max03~. par max03~.72 à chaque fois où cela 
intervient. Afin de conserver les codes tels quels nous proposons de faire 


ozone <- read.table("ozone_transf.txt",header=T,sep=";") 
X <- model.matrix(max03~.72,data=ozone) [,-1] 
ozone <- data.frame(max03=ozone$maxO03, X) 


Nous obtenons ainsi 213 variables et nous pouvons exécuter la validation croi- 
sée répétée de la section précédente, en prenant soin de changer dans la fonc- 
tion ssei_regbic la procédure exhaustive par une procédure forward (utiliser 
method="forward"! et le nombre de composantes maximales pour plsr et per. 
En faisant tourner tous les modèles précédents 20 fois, nous obtenons : 


MCO choix ridge lasso elastic PLS PCR 
185.04 166.24 165.82 162.12 162.31 172.35 173.99 


1. Avec plus 50 variables explicatives, l’algorithme exhaustif est déconseillé. 


Comparaison des différentes méthodes, étude de cas réels 247 


La méthode elastic net donne la meilleure erreur de prévision. De plus, nous re- 
marquons que, pour la plupart des méthodes, l’ordre de grandeur des erreurs a 
fortement diminué. 


Modèle de prévision avec des polynômes 


Nous pouvons facilement construire la matrice (ou un data-frame) avec comme 
variables, les variables initiales, les variables initiales élevées au carré, les variables 
initiales élevées au cube en faisant 


ozone <- read.table("ozone_transf.txt",header=T,sep=";") 
X <- model.matrix(max03~.,data=ozone) [,-1] 
ozone <- data.frame(max03=ozone$max03,X,X~2,X73) 


Nous avons 64 variables explicatives et les résultats sont 


MCO choix ridge lasso elastic PLS PCR 
166.34 168.81 166.04 164.95 165.20 168.13 167.36 


Il est intéressant de noter qu’avec le modèle polynomial, toutes les méthodes font 
quasiment la méme erreur. 


Modèle de prévision avec des splines 


Nous allons voir au chapitre 16 des fonctions splines. Les codes seront expliqués 
au chapitre 16 mais il nous semble intéressant de les mettre en application ici. 


X <- model.matrix(max03~.,data=ozone) [,-1] 
library (splines) 
BB <- NULL 
for(i in 1:ncol(X)){ 
var <- X[,i] 
BX <- bs(var,knots=quantile(var,prob=c(.25,.5,.75)) ,degre=3, 
Boundary. knots=c(min(var) ,max(var))) 
colnames(BX) <- paste(colnames(X) [i] ,"-b",1:6,sep="") 
BB <- cbind(BB,BX) 
} 


ozone <- data.frame(max03=0ozone$max03, BB) 
Nous avons 127 variables explicatives et les résultats sont 


MCO choix ridge lasso elastic PLS PCR 
165.95 162.97 158.96 156.49 156.39 162.67 164.67 


Nous améliorons un petit peu les résultats précédents. Terminons ce chapitre avec 
des splines et de l’interaction. 
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Modèle de prévision avec des splines et de l’interaction 


Nous obtenons les données en exécutant le code suivant 


X <- model.matrix(max03~. ,data=ozone) [,-1] 
library (splines) 
BB <- NULL 
for(i in 1:ncol(X)){ 
var <- X[,i] 
BX <- bs(var,knots=quantile(var,prob=c(.25,.5,.75)) ,degre=3, 
Boundary. knots=c(min(var) ,max(var))) 
colnames(BX) <- paste(colnames(X) [i] ,"-b",1:6,sep="") 
BB <- cbind(BB,BX) 
} 


Nous allons concaténer les colonnes de BB et de la matrice de l'interaction mais 
dans cette dernière il y a les variables initiales qui sont également dans la matrice 
BB, il faut donc faire attention à ne pas prendre toutes les colonnes 


X <- model.matrix(max03-."2,data=ozone)[,-1] 
ozone <- data.frame(max03=ozone$max03,BB,X[,-c(1:21)]) 


Nous avons maintenant 337 variables explicatives et les résultats sont 


MCO choix ridge lasso elastic PLS PCR 
197.44 157.22 155.98 153.92 153.41 159.75 160.27 


10.2.4 Conclusion 


Il est intéressant de noter les meilleurs résultats sont de l’ordre de 155 de MSE 
alors que nous étions à 188 initialement. Et cela est atteint avec presque toutes 
les méthodes. Remarquons de plus que le choix des transformations des variables 
explicatives a un apport important dans la performance. A titre indicatif, nous 
avons fait tourner une forét aléatoire avec les données initiales et nous avons trouvé 
un MSE de 155.0. 


Quatrième partie 


Le modele linéaire généralisé 


Chapitre 11 
Régression logistique 


Dans les chapitres précédents, nous avons essentiellement étudié le modèle de ré- 
gression linéaire qui permet d’expliquer une variable quantitative continue. Nous 
présentons dans ce chapitre l’équivalent de ce modèle dans le cas où la variable à 
expliquer Y est qualitative et admet deux modalités. La plupart des notions seront 
identiques à celles présentées initialement. Nous ne les reprendrons donc pas toutes 
en détail et nous nous focaliserons sur les différences entre les deux modélisations. 


11.1 Présentation du modèle 


11.1.1 Exemple introductif 


Nous reprenons le jeu de données présenté dans Hosmer & Lemeshow (2000) où le 
problème est d’expliquer la présence ou l’absence d’une maladie (variable chd qui 
vaut 1 si la pathologie est présente, 0 sinon) par l’âge du patient. On dispose de 
100 individus, le tableau suivant donne les 5 premières observations. 


Individu | age | chd 
1 20 0 
2 23 0 
3 24 0 
4 25 0 
5 25 1 


Tableau 11.1 — 5 observations de patients. 
Le probleme mettant en jeu simplement deux variables, il est possible de repré- 


senter la variable cible (chd) en fonction de la variable explicative (age) : 


> artere <- read.table("chd.csv", sep = ";", header = TRUE) 
> plot(chd ~ age, data = artere, pch = 16) 
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Chaque point du graphique (fig. 11.1) représente l’âge d’un patient en abscisse et 
la présence (ou l’absence) de la maladie en ordonnée. 


20 30 40 50 60 70 
age 


Fig. 11.1 — Variable chd en fonction de l’âge. 


Une première solution pour traiter ce nouveau problème où la variable à expliquer 
st qualitative consisterait à coder chd en {0,1} (comme c’est fait dans les données 
brutes) ou {—1,1} et d'effectuer une régression linéaire. Une telle approche n’est 
clairement pas satisfaisante car le résultat dépendra du codage effectué. De plus, 
les valeurs ajustées et prédites par un modèle linéaire sont à valeurs dans R alors 
que les valeurs initiales sont dans un ensemble discret. Il faut donc proposer une 
alternative plus pertinente. 


D 


11.1.2 Modélisation statistique 


Nous cherchons à modéliser une variable binaire Y (chd) en fonction des valeurs 
prises par une variable quantitative X (age). On va donc s'intéresser à la loi de 
Y pour chaque valeur que X peut prendre. Une approche naturelle consiste à 
modéliser cette loi par une loi de Bernoulli de paramètre p € [0, 1] inconnue. Une 
variable de Bernoulli étant à valeurs {0,1}, on suppose sans perte de généralités 
que Y prend ses valeurs dans {0,1}. Afin de prendre en compte l’âge du patient 
pour expliquer la variable Y, nous allons faire varier le paramètre de la loi de 
Bernoulli avec l’âge. Ainsi, pour un individu d’âge x fixé, Y va suivre une loi de 
Bernoulli de paramètre p(x) où p(x) désigne la probabilité de l'événement {Y = 1} 
(être atteint par la maladie) pour un individu d’age x. Il reste à spécifier une classe 
de fonctions pour p(x). 


On voit sur le graphe 11.1 que la maladie a tendance à être plus présente pour 
les personnes âgées. Afin de mieux quantifier ce lien et de se donner une idée 
plus précise de l’allure de la fonction p(x), nous regardons dans le tableau 11.2 
l’évolution de la proportion ou fréquence de personnes atteintes par la pathologie 
sur différentes classes d’âge. 
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chd 
age Effectifs 0 1 fréquence 

19 ;29 10 g 1 Ol 

29 ;34 15 13 2 0.133 
34;39 12 9 3 025 

39 ;44 15 10 5 0.333 

44 ;49 13 7 6 0.462 

49 354 8 3 5 0.625 

54 359 17 4 13 0.765 

59 ;69 10 2 8 08 


Tableau 11.2 — Données regroupées en classe d’âge. 


La liaison entre l’âge et la présence de la maladie devient beaucoup plus lisible. 
Il apparaît en effet que lorsque l’âge augmente, la proportion d’individus atteints 
par la maladie augmente comme on peut le voir sur le graphique suivant : 


freq 


S 


age 
Fig. 11.2 — Fréquence de la variable chd par classe d’âge. 


Cette fonction en escaliers dépend du regroupement effectué et peut donc changer 
en fonction des classes choisies. Par construction, il y a des sauts a chaque regrou- 
pement alors que l’on peut imaginer que la proportion évolue de façon continue 
avec l’âge. Afin de lisser la fonction en escaliers, il est d’usage d’utiliser une fonction 
de type sigmoïde, par exemple 


exp(f1 + Box) 
1 + exp(1 + B22) 


où le paramètre 6 = (81, 82) € R? devra être choisi de manière à ajuster au mieux 
la fonction en escaliers (voir fig. 11.3). 

Cette représentation suggère de modéliser la probabilité p(x) d’être atteint par la 
maladie pour un patient d'âge x par la fonction pg(x) définie par 


(11.1) 


ce exp(31 + Box) 
BONS TE exp(61 + Box)” 
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Cette équation définit le modèle logistique dans le cas d’une variable explicative, on 
parle de modèle logistique simple. Le vecteur 8 = (61, G2) € R? contient les para- 
mètres inconnus du modèle. La fonction u + exp(u)/(1 + exp(u)) étant bijective, 
le modèle (11.1) se réécrit 


logit(ps(x)) = log (24) = bı + Box (11.2) 


où la fonction logit est définie sur ]0,1[ par u + log(u/(1 — u)). La fonction glm 
de R permet d’estimer un modèle logistique : 


> glm(chd ~ age, data = artere, family = binomial) 


Call: glm(formula = chd ~ age, family = binomial, data = artere) 


Coefficients: 
(Intercept) age 
-5.3095 0.1109 


Degrees of Freedom: 99 Total (i.e. Null); 98 Residual 
“ Null Deviance: 136.7 
Residual Deviance: 107.4 AIC: 111.4 


On obtient ici By = —5.3095 et Bo = 0.1109. Ainsi, pour un individu d’âge x, on 
estimera avec ce modèle que la probabilité d’avoir la maladie à l’âge x est donnée 


par 
exp(—5.3095 + 0.1109x) 


= TL = . 

palz) = TE exp(—5.3095 + 0.11097) 
Cette fonction est représentée en pointillés sur la figure 11.3. On voit clairement 
que le paramètre 8 a été estimé de manière à bien ajuster la courbe en escaliers. 
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Fig. 11.3 — Fréquence de la variable chd par classe d’âge. 


Le modèle défini en (11.1) et (11.2) permet d’expliquer une variable binaire Y par 
une seule variable X. Il se généralise directement au cas où on est confronté à p 
variables explicatives X1,...,X,. 


Régression logistique 255 


Définition 11.1 

Soit (x1,y1),...,(Œn,Yn) n observations telles que ti = (®i1,...,Lip) € R? et 
yi € {0,1}. Le modèle de régression logistique suppose que les observations yi, i = 
1,...,n sont des réalisations de variables aléatoires binaires indépendantes et de 
loi de Bernoulli de paramètre ps(x:) vérifiant 


pe(xi) 
1 — ps(xi) 


Pour une valeur de x fixée, ce modèle fait le lien entre la probabilité de l’événement 
{Y = 1} (modulo la transformation logit) et la combinaison linéaire des variables 
explicatives x’. 


Remarque 
Tout comme pour le modèle linéaire, si on souhaite inclure la variable constante 
dans le modèle, on prendra x;1 égal à 1 pour tout à variant de 1 à n. 


11.1.3 Variables explicatives qualitatives, interactions 


La nature des variables explicatives (quantitatives ou qualitatives) intervient uni- 
quement dans l'écriture de la combinaison linéaire 6,7; + ...+ pzp du modèle 
logistique. En présence d’une seule variable explicative quantitative X, le modèle 
logistique (avec constante) va s’écrire 


logit(pa(x)) = Bo + Bit. 


Le coefficient 3, mesure l'effet de la variable X sur la probabilité que Y soit égale 
à 1. Par exemple, une valeur de 6; positive signifiera que pg(x) augmente lorsque 
x augmente. 

Si maintenant la variable X est qualitative, alors l'écriture 69 + B1x n’a plus de 
sens. Considérons le cas où X prend ses valeurs dans {A, B,C}, la combinaison 
linéaire 8p + Pix ne veut plus rien dire puisque x vaut A, B ou C. La solution est 
identique à ce qui est fait dans le modèle linéaire (voir chapitre 6) : on code la 
variable qualitative à l’aide d’indicatrices 


logit(pa(x)) = Bo + BilA(x) + B21p(@) + Bslo(x). 


Rappelons que pour un ensemble Æ donné, la fonction 1g(x) vaut 1 six € E, 0 
sinon. Nous sommes à nouveau confrontés à des problèmes d’identifiabilité simi- 
laires à ceux abordés au chapitre 6. En effet, comme 14(x) + 18(x) + 1c(x) = 1, 
n'importe quelle indicatrice peut s’écrire en fonction des deux autres. Cela entraîne 
que différentes valeurs de B = (80, . . . , 83) renvoient la même loi pour Y. On a par 
exemple 


logit(ps(x)) = Bo + B11aA(x) + Bals(x) + Bslc(x) 
= 0 + (bo + B1)14(x) + (Bo + B2)1B(x) + (Bo + B3)1c(2). 
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Ce modèle n’est donc pas identifiable et il devient nécessaire de fixer des contraintes 
identifiantes. Les contraintes les plus courantes consistent à fixer à 0 le coefficient 
associé à une modalité, appelée modalité de référence. Dans ce cas, si on fixe par 
exemple À comme modalité de référence, le modèle se réécrit 


logit(pa(x)) = Bo + Bila(x) + Blz(x) + B31c(z) 
muni de la contrainte 5, = 0, que l’on peut réécrire 
logit(pa(x)) = Bo + Bals(x) + Bslc(x). (11.4) 


Une autre contrainte classique consiste 4 annuler la somme des coefficients associés 
a la variable qualitative : 


logit(pa(x)) = Bo + 1 14(x) + Bls(x) + Bslc(x) 
muni de la contrainte 6; + G2 + 83 = 0. Ce qui peut se réécrire 


logit(pa (x) = Bo + 2114 (2) + Bola (a) + (21 — b2)1c(2). (11.5) 


Exemple 11.1 

On cherche à expliquer une variable binaire Y par une variable qualitative X à 
valeurs dans {A, B,C}. On génére un échantillon de taille 100 tel que la loi de X 
est uniforme sur {A, B,C} et la loi conditionnelle de Y sachant X est définie par 


Loi(Y|X = A) = Loi(Y|X = C) = B(0.9) et Loi(Y|X = B) = B(0.1). (11.6) 


L’échantillon (x;,y;),i = 1,...,100 est obtenu avec les commandes suivantes : 


> set.seed(12345) 

> X <- factor(sample(c("A","B","C"), 100, replace = T)) 
> Y <- rep(0, 100) 

> Y[X=="A"] <- rbinom(sum(X=="A") ,1,0.9) 

> Y[X=="B"] <- rbinom(sum(X=="B") ,1,0.1) 

> Y[X=="C"] <- rbinom(sum(X=="C") ,1,0.9) 

> donnees <- data.frame(X,Y) 


On ajuste un modèle logistique 


> model <- glm(Y ~ ., data = donnees, family = binomial) 
> coef (model) 
(Intercept) XB XC 


1.68639895 -3.55820113 -0.01242252 


Aucun coefficient n’est renvoyé pour la modalité A. Par défaut, la fonction glm 
prend comme modalité de référence la première des modalités rangées dans l’ordre 
lexicographique. Le modèle considéré est donc ici le modèle (11.4). On lit les es- 
timations : Bo = 1.68639895, 82 = —3.55820113 et B3 = —0.01242252. Ces coef- 
ficients sont 4 interpréter en fonction de la contrainte : Bo étant négatif, on peut 
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dire que la probabilité que Y = 1 est plus faible lorsque X vaut B que lorsque X 
vaut A. Bs est proche de 0, cela signifie que lorsque X est égal a C la probabilité 
de l’événement Y = 1 est proche de la probabilité de ce même événement lorsque 
X vaut A. Ces interprétations sont cohérentes avec le procédé de simulation des 
observations (voir (11.6)). 

Il est bien entendu possible de modifier la contrainte identifiante. Par exemple on 
ajustera le modèle (11.5) avec la commande 


| > model1 <- glm(Y ~ C(X,sum), data = donnees, family = binomial) 
| > coef (model1) 
(Intercept) C(X, sum)1 C(X, sum)2 


0.4961911 1.1902079 -2.3679932 | 


On a alors comme estimation : Bo = 0.4961911, By = 1.1902079, Bo = —2.3679932 
et Bs = — 1-2 = 1.177785. Bien entendu, la contrainte choisie n’a pas d'influence 
sur les valeurs prédites. Il est en effet facile de voir que les paramétrisations (11.4) 
et (11.5) renvoient les mêmes estimations des probabilités de Pévènement {Y = 1} 
pour tout x € {A, B,C}. Le choix de la paramétrisation (et donc de la contrainte) 
a en revanche une influence sur l'interprétation des paramètres (voir exercice 11.2). 


Les interactions se traitent de la même façon que pour le modèle de régression 
linéaire. Nous renvoyons le lecteur au chapitre 6 ainsi qu’à l'exercice 11.5 pour 
plus de précisions. 


11.2 Estimation 


La nature qualitative de la variable à expliquer ne permet pas d'utiliser une ap- 
proche du type moindres carrés pour estimer le vecteur 8. Nous avons vu que 
l’estimateur des moindres carrés de B coïncide avec l’estimateur du maximum de 
vraisemblance (EMV) dans le modèle linéaire. C’est cette dernière méthode qui 
est généralement utilisée pour estimer les paramètres du modèle logistique. 


11.2.1 La vraisemblance 


On dispose de n observations (x1,y1),..., (£n; Yn) Où (zi, yi) E R? x {0,1} et les 
y; sont des réalisations de variables aléatoires indépendantes de loi de Bernoulli 
de paramètre pg(x;) vérifiant (11.3). La vraisemblance du modèle logistique s’écrit 
donc 


L(Y, 8) = [| paws)” (1 — pale) 4 


i=1 


avec Y = (y1,...,UYn) et B = (B1,...,/B,). Comme son nom l'indique, l’approche 
du maximum de vraisemblance consiste à maximiser en £ la fonction L(Y, 3). Il 
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est souvent plus simple de considérer la log-vraisemblance 


L(Y, b) = log L(Y, 8) = ) {ui log(pa(wi)) + (1 — yi) log(1 — pa(xi))} 


2. fn log (, pah) + log(1 pala) 


ou encore d’aprés (11.3), 
L(Y, B) = Ÿ {yix;b — log(1 + exp(x/8))}. (11.7) 
i=1 
Si la vraisemblance admet un maximum fini, alors celui-ci annule le gradient de la 


log-vraisemblance défini par 
ALY, b) OL(Y, 2) 
VL(Y, B) = 545 ; 
ma = (755 a8, 


Pour chaque composante du gradient, on a 


ðL(Y, b) _ < xij exp(z!b)] _ € 7 
~ OB; = [pe Tij | = > lutu- pelzi))], j=1,...,p. 


Par conséquent 


i=1 


n 


VL(Y, 8) = X [zilvi — pa (as))] = X' (Y — Pa) (11.8) 
i=1 
Til -.. Tip Yı pg(zı) 
X= , Y=|:| et P;=| : 
Tni +++ np Yn P8(Tn) 


Le gradient VL(Y, 8), vu comme une fonction de B, est généralement appelé la 
fonction de score et est noté S(B). Ainsi, s’il existe, l’estimateur du MV £ est une 
solution de l’équation 


5(B) = VL(Y, B) = X'(Y — Ps) = 0. (11.9) 
Résoudre cette équation revient à résoudre p équations à p inconnues ((),..., Bp) : 
exp(æ18) n  exp(æn6) 


"TF exp(aB) À * "1+ epa S 
Ce système non linéaire en 5 n’admet pas de solution analytique. Nous devons donc 
nous tourner vers des méthodes numériques pour pouvoir calculer l’estimateur du 
maximum de vraisemblance. Les méthodes numériques utilisées par la plupart des 
logiciels statistiques sont basées sur des algorithmes itératifs qui permettent de 
trouver les extrema locaux de fonctions. La proposition suivante justifie l’utilisation 
d’algorithmes itératifs pour calculer l'EMV. 


T15Y1 + eee + EnjYn = .,D. 
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Proposition 11.1 
Supposons la matrice X de plein rang, alors la log-vraisemblance L(Y, B) est stric- 
tement concave par rapport à b. 


La preuve de cette proposition est à faire dans l’exercice 11.4. La concavité a 
une conséquence importante : un algorithme itératif convergera vers l’estimateur 
du maximum du vraisemblance lorsque celui-ci existe. Elle ne garantit cependant 
pas l’existence d’une solution finie au problème de maximisation. Les cas où les 
solutions ne sont pas finies sont néanmoins rares (voir exercice 11.3). 


11.2.2 Calcul des estimateurs : l’algorithme IRLS 


Deux algorithmes sont généralement implémentés dans les logiciels pour calculer les 
estimateurs du maximum de vraisemblance dans les modèles linéaires généralisés : 
l'algorithme du score de Fisher et l’algorithme de Newton Raphson. Dans le cas 
du modèle logistique, ces deux algorithmes coïncident. Nous les présentons dans 
cette section. 

L'approche « Newton Raphson » consiste à trouver une suite (8%)),en de vecteurs 
de R? qui converge vers l’estimateur du maximum de vraisemblance B. On rappelle 
que, s’il existe, 8 est solution de l'équation de score (11.9) et vérifie donc 


S(8) = VL(Y, À) = 0. (11.10) 


On cherche à construire la suite (8%) );en par récurrence : il suffit donc de trouver 
une formule de récurrence permettant de calculer B+") à partir de 6). Soit 
B) € R?, un développement de Taylor à l’ordre 1 de la fonction de score donne 
Vapproximation 


0 = S(8) ~ $(8)) + ABP) — 8). (11.11) 


A(6)) désigne la matrice hessienne de la log-vraisemblance au point 8“) définie 
par 


ABM) = VPL(Y, BM) = -X'Wgw X 
ou Wg est la matrice n x n diagonale dont le ¿° terme de la diagonale est défini par 


pa(ai)(1 — pa(æi)). Si X est de plein rang, alors A(8“) est inversible. On obtient 
ainsi en résolvant (11.11) 


Bx B® — A*(8™) (8). 
D'où la formule de récurrence 
BR aR = AB SB) 


de laquelle on déduit l’algorithme 4. 
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Algorithme 4 Maximisation de la vraisemblance (IRLS). 


1. Initialisation : fixer 6B € R?, k =1; 
2. Répéter 


— pr) + g) — Amt SON ee") 
— kek+1 


jusqu’à BET) & B® et/ou L(Y, BATY) = L(Y, BA), 


La dernière ligne de l'algorithme correspond au critère d’arrét du processus itératif. 
Le processus est généralement stoppé lorsque 8+) est très proche de 8%). La 
manière de mesurer la proximité peut varier d’un logiciel à l’autre. Par défaut, 
la fonction glm utilise comme critère d’arrêt la vraisemblance : l’algorithme est 
stoppé dès que 

LT, Bor) — L(Y, BP) se 


avec € > 0 petit ou dès qu’un nombre maximal d’itérations a été atteint. 


Remarque 
En utilisant (11.8), la formule de récurrence de l’algorithme de maximisation peut 
se réécrire 


pt1) = pe) F (X' We X) X' (Y = Poo) 
= (X'Waw X) TX Wa (XBW + Wo (Y — Por) 
= (X'WawX)1X'WenZ™, 


où Z() = X B®) + Wa) (Pau). On déduit que B+» s'obtient en effectuant 
la régression pondérée du vecteur Z) par la matrice X, d’où le nom de Iterative 
Reweighted Least Square (IRLS) pour cet algorithme. Les poids Wg) dépendent 
de X et 8“) et sont réévalués à chaque étape de l’algorithme. 


11.2.3 Propriétés asymptotiques de PEMV 


Nous avons vu dans la partie précédente qu’il n’existe pas d’écriture explicite 
pour EMV. Il est donc impossible d’utiliser directement les résultats classiques 
tels que la loi des grands nombres ou le théoréme central limite pour étudier le 
comportement asymptotique de l'EMV. Il est néanmoins bien connu que, sous 
certaines hypothèses de régularité, il existe des garanties théoriques pour EMV. 
Il est par exemple consistant et asymptotiquement normal avec comme matrice de 
variance covariance l'inverse de la matrice d’information de Fisher. Dans le cas du 
modèle logistique, cette matrice est donnée par 


Tn(B) = —E [V7L(Y, 8)] = X'WsX. (11.12) 
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Le théoréme suivant, dont on pourra trouver la preuve dans Fahrmeir & Kaufman 
(1985) et Antoniadis et al. (1992), énonce les principales propriétés asymptotiques 
de VEMV. 
Théorème 11.1 
On suppose que : 
— les x;,i=1,...,n prennent leurs valeurs dans une partie compacte de IR? ; 
— la plus petite valeur propre Xmin(X'X) tend vers +20 lorsque n > œ ; 
— la vraie valeur de B est finie. 
Alors il existe une suite de variables aléatoires (Bn lig telle que 


1. imn Pr(S(Bn) = 0) = 1 où S est la fonction de score définie par (11.9). 
2. Bn converge en probabilité vers B lorsque n tend vers +co. 


3. Ên est asymptotiquement gaussienne telle que : 


LE(S, — b) 5 N (0, Ip) quand n— oo. (11.13) 


= désigne la convergence en loi et J, la matrice identité de dimension p x p. 
La première assertion garantit que EMV existe, au moins pour n suffisamment 
grand. Les points 2 et 3 précisent que l’'EMV va se rapprocher de la vraie valeur 
de 8 lorsque le nombre d’observations augmente. Le point 3 nous donne de plus 
la loi asymptotique de EMV, c’est de cette loi que sont déduits les intervalles de 
confiance et les procédures de tests sur les paramètres du modèle logistique. Afin 
de simplifier les notations, on désignera dans la suite l’estimateur du MV par B 
(on supprime l'indice n). 


Remarque 

La compacité de l’espace des régresseurs n’est pas une hypothèse restrictive. En 
pratique, les valeurs des variables explicatives varient le plus souvent dans une 
partie compacte de R?. La seconde hypothèse implique que l'information (au sens 
de Fisher) sur le paramètre 8 augmente lorsque le nombre d'observations tend vers 
+oo. Elle est nécessaire pour augmenter la précision (en termes de diminution de 
la variance) de B lorsque le nombre d’observations n augmente. 


11.3 Intervalles de confiance et tests 


Le calcul d’intervalles de confiance ainsi que le développement de procédures per- 
mettant de tester la valeur des paramètres du modèle se font à partir de la nor- 
malité asymptotique des estimateurs du MV présentée dans le théorème 11.1. Il 
faudra donc prendre garde d’avoir suffisamment d’observations pour utiliser ces 
procédures. On peut réécrire la convergence en loi (11.13) : 


à 4 L 
(8 — B)'Zn(B)(B — B) + x3, 
où on rappelle que x, désigne la loi du chi-2 à p degrés de liberté. La matrice 
d’information 7, (B) dépendant du paramètre inconnu £, on ne peut pas utiliser ce 


262 Régression avec R 


résultat pour calculer des intervalles de confiance pour les paramètres B;. Cepen- 
dant, 8 étant consistant, on déduit des opérations classiques sur la convergence en 
loi que 


(Ê — Py LADUE - B) 55%. (11.14) 


Ainsi pour n grand, on pourra approcher la loi de 8 par une loi gaussienne multi- 
variée centrée en 8 et de matrice de variance covariance (X'W;,X is 


11.3.1 IC et tests sur les paramètres du modèle 


Les intervalles de confiance ainsi que les tests sur les paramètres du modèle logis- 
tique peuvent s’effectuer à partir de la propriété suivante qui est une conséquence 
directe de (11.14). 


Propriété 11.1 
Sous les hypothèses du théorème 11.1, on a 
BB & yg), (11.15) 


oj 
s A2 PA - . 1 = 
où ĉj désigne le j° terme de la diagonale (X'W,X)~°. 


Un intervalle de confiance (asymptotique) de niveau 1 — a pour B; est donc donné 
par 


en = (8, | (11.16) 


où U1—a/2 représente le quantile d’ordre (1 — a/2) de la loi normale W(0,1). 
La proposition 11.1 permet également d’effectuer des tests de nullité des coefficients 
du modèle. On note Ho : 6; = 0 et Hi : 8; # 0. Sous Ho, on déduit de (11.15) 
que 3; /6; 4 N (0,1). On rejettera Ho au niveau a €]0, 1] si la valeur observée de 
B;/6; dépasse en valeur absolue le quantile d’ordre 1 — a/2 de la loi N (0, 1). 


Exemple 11.2 
On considère le jeu de données SAheart du package bestglm. 


> library (bestglm) 
| > data(SAheart) 


J 


Tout comme pour les données présentées en introduction de ce chapitre, il s’agit 
d’expliquer la présence ou l’absence d’une maladie (variable chd). Afin de pouvoir 
effectuer de la prévision sur de nouvelles données (limitées 4 3 pour des questions 
de lisibilité) nous les mettons de côté 
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new.SAheart <- SAheart[c(2, 408, 35), ] 
row.names(new.SAheart) <- NULL 
SAheart <- SAheart[-c(2,408,35), ] 


On dispose ici de 9 variables explicatives et de 459 individus (et 3 a prévoir). 
On ajuste sous R le modèle logistique permettant d’expliquer chd par les autres 


variables du jeu de données. 


> model <- glm(chd - ., data = 

> round(summary (model) $coefficients, 4) 
(Intercept) -6.0837 1.3141 -4. 
sbp 0.0065 0.0058 1. 
tobacco 0.0814 0.0269 3 
1dl 0.1794 0.0600 2 
adiposity 0.0184 0.0295 0 
famhistPresent 0.9325 0.2291 4 
typea 0.0392 0.0123 3 
obesity -0.0637 0.0446 -1 
alcohol 0.0002 0.0045 0 
age 0.0439 0.0122 3 


SAheart, family = binomial) 


6294 
1268 


. 0232 
.9891 
. 6224 
. 0694 
. 1845 
. 4300 
. 0346 
. 5923 
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. 0000 
. 2598 
. 0025 
. 0028 
. 5337 
. 0000 
.0015 
. 1527 
. 9724 
. 0003 


Comme pour la régression linéaire, on obtient une matrice qui comporte pour 
chaque paramètre (chaque ligne) 4 colonnes : 


— son estimation 6; (colonne Estimate) ; 


— son écart-type estimé 6; (colonne Std.Error) ; 
— la valeur observée de la statistique du test d’hypothèse Ho : 8; = 0 contre 
Hi : 8; £0, c’est-à-dire B;/6; (colonne z value); 
— la probabilité critique du test (colonne Pr(>|z|)). 
On remarque qu’au niveau a = 5%, on acceptera la nullité de 4 coefficients (sbp, 
adiposity, obesity, et alcohol). On obtient les intervalles de confiance (11.16) 
à l’aide de la fonction confint.default : 


> confint.default (model) 


250 
(Intercept) -8.659355064 -3. 
sbp -0.004797560 0 
tobacco 0.028628110 0 
ldl 0.061770934 0 
adiposity -0.039461469 0 
famhistPresent 0.483354369 1 
typea 0.015090098 0 
obesity -0.151054913 0 
alcohol -0.008639577 0 
age 0.019931097 0 


97.5 % 
507983650 


017773140 
. 134174033 
. 297043348 
.076187468 


. 381572764 
.063396115 
. 023612482 
. 008950096 
. 067793230 
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La fonction confint permet d’obtenir également des intervalles de confiance mais 
ces derniers sont calculés à partir de la vraisemblance (voir exercice 11.9 pour plus 
de détails). 


11.3.2 Test sur un sous-ensemble de paramètres 


La propriété 11.1 permet de tester la nullité d’un paramètre dans le modèle lo- 
gistique. Il existe de nombreuses situations où on souhaite tester la nullité d’un 
sous-ensemble de coefficients du modèle. Considérons par exemple le scénario où 
on souhaite expliquer une variable Y binaire par une variable X; qualitative à 
trois modalités (A, B,C) et deux variables X2 et X3 continues. Le modèle s'écrit 


logit(pa(x)) = Bo + B1lA(x1) + B21B(a1) + Bslo(x1) + Bate + 5x3, (11.17) 


muni de la contrainte 6, = 0. Plusieurs situations peuvent motiver la construc- 
tion de tests de nullité d’un sous-ensemble de paramétres. Nous citons quelques 
exemples ci-dessous. 
— Mesure de l’effet d’une variable qualitative dans le modèle : il s’agit de 
tester la nullité de l’ensemble des coefficients associés aux modalités de la variable 
en question. Pour mesurer l’effet de X, dans le modèle (11.17), on testera 


Ho : By = Bo = B3 contre Hy : (5, k) € {1,2,37 tel que bj # Br. 


Compte tenu de la contrainte identifiante, les hypothèses se réécrivent : 


Ho Bo = B3 =0 contre Hı $ Jj = {2,3} tel que B; x 0. 


— Test sur la validité globale du modèle : on teste si au moins un coefficient, 
à l'exception de la constante, est non nul (équivalent du test de Fisher global en 
régression linéaire). Pour le modèle (11.17), il s’agira donc de tester 


Ho: 62 =...=85=0 contre H:1:1j€{2,...,5} tel que 6; £0. 


— Tests entre modèles emboités : on veut choisir un modèle parmi deux 
modèles emboités. On veut par exemple comparer le modèle (11.17) au modèle 
logistique permettant d’expliquer Y par Xı uniquement. Cela revient à tester 
dans (11.17) les hypothèses 


Ho : Ba = bs =0 contre Hı : Jj € {4,5} tel que 6; Æ 0. 


On se place dans le cas général où on cherche à tester la nullité de q < p paramètres 
dans le modèle 


logit(pa(x)) = bızı +... + bpp. 


Sans perte de généralité, on supposera que l’on veut tester la nullité des q premiers 
paramètres : 


Ho: 81 =... = b4 =0 contre Hı :4j € {1,...,q} tel que 8; £0. 
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On note 8 = (By, nae ei Vestimateur du MV de B et Brg = (Êi, pasi , Ba) le vecteur 
comprenant les q premières coordonnées de 8. D’après (11.14), Bes est, pour n 
assez grand, gaussien d’espérance (1.4 = (B1,...,/4) et de matrice de variance- 
covariance égale au bloc supérieur gauche de dimension q x q de 


Ta (Ê)! = (X'W,X) 
On note Z;.4(3)~! cette matrice. On déduit du théorème 11.1 


(Br: = Pa Obs rt Pr:q) = X, 


où Z:4(B) désigne l'inverse de Z;.q()~!. On déduit que sous Ho 


(B1:a) Z1:9(B)(B1:9) 4 + 


et on rejettera Ho si la valeur observée de la statistique ci-dessus dépasse le quantile 
d'ordre 1 — a de la loi x7. Ce test est appelé test de Wald. 


Remarque 

Les estimateurs des paramètres du modèle logistique étant calculés en maximisant 
la vraisemblance, on peut aussi utiliser les statistiques de rapport de vraisemblance 
pour tester la nullité d’un ou plusieurs paramètres. En conservant les notations de 
ci-dessus, on a sous Ho 


—2(£u,(Y, Bap) — L(Y, B)) 4 x2 


où £Ly,(Y, Bu) désigne la log-vraisemblance du modèle sous Ho, c’est-à-dire la 
log-vraisemblance du modèle 


logit(pa(x)) = bq+1Zq+1 + - - - + BpTp 
et Bu. est PEMV des paramètres de ce modèle. 


Exemple 11.3 

On souhaite expliquer une variable Y binaire par une variable X qualitative à 
3 modalités (A, B,C) et deux variables continues X2 et X3. Le modèle logistique 
s'écrit 


logit(pg(x)) = Bo + Bila(x1) + B21(x1) + Bslo(x1) + Bate + 5x3, (11.18) 


muni de la contrainte 3; = 0. On génère n = 1000 observations : 


r 
| 


n <- 1000 

set.seed(123) 

X1 <- sample(c("A","B","C"), n, replace = TRUE) 
X2 <- rnorm(n) 

X3 <- runif (n) 

cl <- 1+0*(X1=="A")+1*(X1=="B")-3*(X1=="C")+2*X2 
Y <- rbinom(n, 1, exp(cl)/(1+exp(cl))) 

donnees <- data.frame(X1,X2,X3,Y) 


VVVVVV VV 
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On estime les paramètres 3; avec 


La fonction Anova du package car permet d'effectuer les tests de Wald et du 
rapport de vraisemblance pour tester l'influence des variables dans les modèles. 
Cette fonction permettra donc de tester la nullité des paramètres associés à chaque 
variable : 

— X,: Ho: b2 = 83 = 0 contre Hı : B2 £0 ou B3 £0; 

< Xə : Ho : 84 = 0 contre Hı : 64 Æ 0. 

— Xs : Ho : 85 = 0 contre H,: 6; £0. 

On effectue d’abord les tests de Wald. 


> library (car) 
> Anova(mi, type = 3, test.statistic = "Wald") 
Response: Y 

Df  Chisq Pr(>Chisq) 


(Intercept) 1 28.4698 9.517e-08 *** 
X1 2 212.5061 < 2.2e-16 *** 
X2 1 210.3902 < 2.2e-16 *** 
X3 1 0.3096 0.5779 


Signif. codes: 0 ‘***? 0.001 ‘**’ 0.01 ‘x? 0.05 ‘.? 0.1 £7? 1 


Pour les tests du rapport de vraisemblance, il faut modifier l’option test .statistic 


> Anova(mi, type = 3, test.statistic = "LR") 
Analysis of Deviance Table (Type III tests) 


Response: Y 
LR Chisq Df Pr(>Chisq) 


X1 376.74 2 <2e-16 *** 
MP ALT CS al <2e-16 *** 
X3 0.31 1 0.5778 


Signif. codes: 0 ‘*x%xx’ 0.001 ‘**’ 0.01 ‘x? 0.05 ‘.? 0.1 ‘ ? 1 


Dans les deux cas, l'hypothèse nulle est rejetée pour X, et Xə et ne l’est pas 
pour X3. Si l'utilisateur ne souhaite pas utiliser de package spécialisé, la base de 
R permet faire les tests du rapport de vraisemblance en utilisant des tests entre 
modèles emboîtés. En effet, tester l'influence de la variable X, dans le modèle 
revient à tester le modèle (11.18) contre ce modèle sans la variable X1. L'utilisateur 
doit alors construire les modèles sans chacune des trois variables : 
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> m01 <- glm(Y ~ X2 + X3, data=donnees, family=binomial) 
> m02 <- glm(Y ~ X1 + X3, data=donnees, family=binomial) 
> m03 <- glm(Y ~ X1 + X2, data=donnees, family=binomial) 


Ces modèles sont ensuite testés contre le modèle complet (appelé model). Le test 
permettant de regarder l’influence de la variable X, est conduit ainsi : 


> anova(m01, mi, test = "LRT") 
Analysis of Deviance Table 


Mode MEET EERXS 
Model 2 Xi X25 XS 
Resid. Df Resid. Dev Df Deviance Pr(>Chi) 
1 997 1109.67 
995 3269302 376.74 < 2.2e-16 *** 


et nous concluons au seuil de 5 % que la variable X est utile. Pour X> et X3, on 
utilisera 


TER TR) 
HERT) 


> anova(m02, m1, test 
> anova(m03, m1, test 


Nous retrouvons bien évidemment les mêmes résultats que pour le test du rapport 
de vraisemblance avec la fonction Anova du package car. 

Pour les tests de Wald, on pourra également utiliser la fonction wald.test du 
package aod. On retrouvera par exemple le test pour l'utilité de la variable X; 
avec 


> library (aod) 
> wald.test(Sigma = vcov(m1), b = coef(m1), Terms = c(2,3)) 
Wald test: 


Chi-squared test: 
X2 = 212.5, df = 2, P(> X2) = 0.0 


11.3.3 Prévision 


Pour le modèle logistique, le concept de prévision est légèrement différent de celui 
que nous avons vu pour le modèle linéaire. En régression linéaire, l’objectif est 
de prédire (ou d’estimer) yn4i1 = £h}16 pour une nouvelle observation x41. 
Pour le modèle logistique, on peut de la même manière se poser la question de 
prédire le label ou groupe yy+1 € {0,1} d’une nouvelle observation 2,41 € RP. 
Cette question n’a cependant pas de sens à ce stade, puisque ce label n’est pas 
clairement défini. La quantité définie est la probabilité pg(an41). C’est à partir de 
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cette probabilité qu’on peut définir un label en posant 


1 si Ln >s 
masts) = { 0 rea ut (11.19) 


où s est un seuil fixé dans [0,1]. Le seuil de 0.5 paraît bien entendu être le plus 
naturel. Il n’est cependant pas le plus opportun dans certaines situations. Nous 
reviendrons sur ce problème de choix de seuil dans le chapitre 14. 

Etant donné une nouvelle observation 2,41 € R? et un seuil s € [0,1], on cherche 
donc à prédire le groupe y,:1(s) défini par (11.19). On pose naturellement 


n 1 si pa(tn4i) > 8 
Gn+1(s) -{ 0 a ý 


où B désigne l’estimateur du maximum de vraisemblance de 6. On prédira ainsi 
que l'individu x, est dans le groupe 1 si la probabilité 


exp(z/, 18) 


Data) = —— 
B 1+ exp(z/,,16) 


est supérieure au seuil fixé s. 

La quantité ci-dessus est un estimateur de ps(x,+1), la probabilité sous le modèle 
logistique que x,+1 soit dans le groupe 1. Dans de nombreuses situations, il peut 
être intéressant de donner un intervalle de confiance pour cette probabilité. D’après 
le théorème 11.1, B est (pour n grand) un vecteur gaussien d’espérance 8 et de 
matrice de variance covariance Z,,(3)~'. Par conséquent, la loi de x!, ak peut être 
approchée pour n grand par la loi gaussienne 


Nissan a) En). 


En posant 62,, = o144(X ‘WX )~tan41, on déduit un intervalle de confiance 
asymptotique de niveau 1 — a pour pg(tn+1) : 


exp(zh+10 = U1_a/20n+1) | exp(zh+10 + U1-a/20n+1) 


1+ exp(2’,,18 — is aout) ‘1+ exp(x!, 448 + U1—a/20n+1) 


| (11.20) 


Où U1—a/2 désigne le quantile d’ordre 1 — a/2 de la loi W(0,1). 


Exemple 11.4 
On reprend le jeu de données SAheart sur lequel on a ajusté le modèle logistique 
suivant : 


| > model <- glm(chd - ., data = SAheart, family = binomial) 
| 


Rappelons que nous disposons de 3 nouvelles observations pour lesquelles on sou- 
haite prévoir la variable à expliquer (chd) : 
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> new. SAheart 
sbp tobacco ldl adiposity famhist typea obesity alcohol age chd 


1 144 0.01 4.41 28.61 Absent 55 28.87 2.06 63 1 
2 200 19.20 4.43 40.60 Present 55 32.04 36.00 60 1 
3 148 5.50 7.10 25.31 Absent 56 29.84 3.60 48 0 


La fonction predict permet de calculer des prévisions pour ces trois individus : 


> predict(model, newdata = new.SAheart) 
1 2 3 
-0.7496872 2.0036264 -0.5350967 


Par défaut, cette fonction renvoie la valeur de la combinaison linéaire des va- 
riables explicatives prédites, c’est-à-dire x’, , , 3. Si on désire obtenir les probabilités 
P(n+1), il faut ajouter l’argument type="response" : 


> predict(model, newdata = new.SAheart, type = "response") 
1 2 3 
0.3208895 0.8811773 0.3693289 


On pourra déduire de ces estimations les labels prédits pour ces 3 nouveaux indivi- 
dus. Si on considère un seuil de 0.5, on prédira chd=1 pour le deuxième individu et 
chd=0 pour les individus 1 et 3. On pourra enfin obtenir les intervalles de confiance 
(11.20) avec les commandes : 


prev <- predict(model, newdata=new.SAheart, type="link", 
se.fit = TRUE) 

cl_inf <- prev$fit - qnorm(0.975)*prev$se.fit 
cl_sup <- prev$fit + qnorm(0.975)*prev$se.fit 
binf <- exp(cl_inf) / (1 +texp(cl_inf)) 
bsup <- exp(cl_sup) / (1 + exp(cl_sup)) 
data.frame(binf , bsup) 

binf bsup 
1 0.1997174 0.4722004 
2 0.7138812 0.9566007 
3 0.2461812 0.5122202 


VV VV NV +V 


11.4 Adéquation du modèle 


Nous présentons dans cette partie des indicateurs qui permettent, dans une cer- 
taine mesure, de mesurer l’adéquation ou la qualité d’ajustement aux données 
du modèle logistique. Les critères d’adéquation sont le plus souvent construits 
en confrontant les données observées aux valeurs ajustées par le modèle ou en 
comparant le modèle à un modèle de référence qui ajuste bien les données. Nous 
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commençons par présenter le modèle saturé qui est souvent pris comme référence 
pour mesurer l’adéquation. 


11.4.1 Le modèle saturé 


Rappelons que nous sommes en présence de n observations (x1,y1),...,(%n, Yn) Où 
xi € R? et y; € {0,1}. Les y; sont vus comme des réalisations de loi de Bernoulli 
de paramètre p; € [0,1]. Dans ce contexte, poser un modèle revient à mettre une 
contrainte entre les p;,i = 1,...,n. Nous avons vu par exemple que le modèle 
logistique suppose p; = pg(a;) tel que (11.3) est vérifié. Par définition, le modèle 
saturé ne pose aucune contrainte sur les p;. Il possède donc n paramètres p1,..., Dn 
inconnus si tous les x; sont différents. On a alors autant de paramètres à estimer 
que d’observations, d’où le terme saturé. 


Lorsque les x; ne sont pas tous différents, le nombre de paramètres à estimer 
diminue. En effet, si x; = x; alors les probabilités de succès p; et pj sont identiques. 
Il suffit alors d’estimer une probabilité par point de design. On définit ainsi 

— %1,...,%7,T < n l’ensemble des valeurs prises par £1,..., Zn; 

— n; = Card{i: z; = %},t=1,...,T; 

= e = Deas Yi 

T correspond au nombre de points de design différents, č; représente un point du 
design, ng désigne le nombre de fois où on a observé le point č; et ÿ le nombre 
de succès observé au point Z,. Avec cette formalisation % est la réalisation d’une 
loi binomiale B(nz, p+). Cette nouvelle écriture généralise le modèle considéré au 
préalable. En effet, si tous les x;,2 = 1,...,n sont différents, alors T = n, % = x, 
ne = 1 et ji = y. 


Exemple 11.5 
On considère un jeu de 10 observations avec deux variables explicatives X; et Xə. 
Les tableaux 11.3 et 11.4 représentent les données aux formats individuel et répété. 


a zı | T2 | Y 

1 3 2 |0 

2 1 4 |1 

3 2 | 4 |1 t | %1 | To || me || Ÿ 
4 1 4 |0 1 3 2 3 1 
5 3 2 | 0 2 1 4 4 || 3 
6 1 4 |1 3 | 2 | 4 2 || 2 
í 2 | 4 |1 4 1 3 1 0 
8 1 4 |1 Tableau 11.4 — Format répété. 
9 3 2 |1 

10 1 3 |0 


Tableau 11.3 — Format individuel. 


Comme nous l’avons dit précédemment, le modèle saturé ne pose pas de contraintes 
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entre les probabilités p,. La propriété suivante présente les estimateurs du maxi- 
mum de vraisemblance dans ce modèle (voir exercice 11.8 pour la preuve). 


Propriété 11.2 
On considère le modèle saturé dans le cas de données répétées. 


1. La log-vraisemblance du modèle saturé en p = (p1,...,pr) € [0,1]7 vaut 

= n 

Lun) = > (10g (7) + gr og(pi) + (ne — se) og(t = p) 

t=1 
2. Les estimateurs du maximum de vraisemblance de p = (p1,...,pr) € [0,1]? 
sont donnés par 

= dekani 
Ne 

En particulier, si tous les x; sont différents, on a D; = yi,i=1,...,n. 


3. Soit L(Y, B) la log-vraisemblance en B = (B1,...,/,) du modèle logistique 


logit(pa(x)) = Bit +... + Bptp. 


Alors pour tout 5 € IR? 
L(Y, B) < Ll YD), 


où D = (Î1,..., Dr). 


Cette propriété s’interprète naturellement : en l’absence de contraintes la probabi- 
lité que la variable cible soit égale à 1 au point č, est estimée par la proportion de 
succès observée au point £;. Lorsqu'on a peu de répétitions pour les points du de- 
sign, on peut ainsi s'attendre à une mauvaise qualité d’estimation des paramètres 
du modèle saturé. En effet la variance des p; est grande lorsque ne est petit. C’est 
pourquoi le modèle saturé est souvent sur-paramétré. C’est néanmoins un modèle 
qui sera souvent performant en termes d’ajustement. La propriété 3 nous dit en 
effet que c’est le « meilleur » modèle en termes de vraisemblance. 


Exemple 11.6 (Modèle saturé pour l’exemple introductif (p. 257)) 
Reprenons les données de la maladie coronarienne (chd). Les points du design 
peuvent être obtenus simplement grâce à la fonction unique appliquée à la va- 
riable explicative (la fonction peut être utilisée avec une ou plusieurs variables 
explicatives) : 


> unique (artere[,"age"]) 
[1] 20 23 24 25 26 28 29 30 32 33 34 35 36 ... 
[26] 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 69 


Nous souhaitons maintenant calculer en chaque point du design le pourcentage de 
malade (ou le pourcentage de 1, un malade étant codé 1). Ce pourcentage est égal 
à la moyenne de la variable binaire au point du design et il est donc calculé par 


272 Régression avec R 


> sature <- aggregate(artere[,"chd"] ,by=list (artere$age) , FUN=mean) 
> names(sature) <- c("age","p") 


Nous pouvons aussi calculer par le même moyen l'effectif n; à chaque point du 
design t. 


> ndesign <- aggregate(artere[,"chd"], 

by=list (artere$age) , FUN=length) 
> names(ndesign) <- c("age","n") 
> merge (sature,ndesign,by="age") [1:5,] 
age n 
20 
23 
24 
25 
26 


oP WNP 
ae se © 
aS) © © © 
DNDN EH RB 


Nous constatons qu’au premier point du design, age vaut 20, il y a une seule 
observation et la probabilité estimée d’être malade est de 0, alors qu’au quatrième 
point il y a 2 répétitions (n4 = 2) et la probabilité estimée d’être malade vaut 0.5. 
Nous pouvons ensuite représenter graphiquement ces pourcentages ainsi que les 
observations grâce à 


> plot(chd ~ age, data = artere, pch = 15+chd, col = chd+1) 
> lines(p ~ age, data = sature) 


et nous retrouvons graphiquement (fig. 11.4) que le modèle saturé est une ligne 
brisée qui ajuste les points au mieux. Nous remarquons que ce modèle est très 
instable, il sera fortement affecté par de faibles perturbations des données. 


2 = e ce ce CEEE EEE E E © 
2 | 
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B= 
° qj 
o 
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o 
© 
oT LLLLLLLLLELLLLLLLLLLLI = 
T T 


20 30 40 50 60 70 
age 
Fig. 11.4 — Modèle saturé pour l’exemple de la maladie coronarienne. 


11.4.2 Tests d’adéquation de la déviance et de Pearson 


Nous présentons dans cette section deux tests d’adéquation pour le modèle logis- 
tique. L'hypothèse nulle Ho stipule que le modèle logistique considéré est le « vrai 
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modèle », c’est-à-dire que les observations ÿ, sont des réalisations de loi Binomiale 
de paramètres nz et pg(%+) telles que 


logit(ps(Ÿe)) = Bič + ee + BpËtp t= Lys cay 


L’alternative Hı est la négation de Ho. Les statistiques de test sont basées sur 
deux critéres d’ajustement : la déviance et la statistique de Pearson. 

La déviance mesure l’écart en termes de log-vraisemblance entre le modèle saturé 
et le modèle considéré. 


Définition 11.2 
La déviance du modèle logistique est définie par 


D = —2(L(Y, Ê) — Leas(¥,B)) > 0, (11.21) 


où Lsat désigne la log-vraisemblance maximisée du modèle saturé. Elle se réécrit 


T m m 
fig= 
D=2 y ÿ log ee | + (nz — Je) log (a i | č 
t=1 


nepg (Ht) Nt — nepg(&t) 


La déviance est toujours positive (voir Propriété 11.2). C’est un indicateur qui 
mesure la qualité d’ajustement du modèle : plus la déviance est faible, mieux le 
modèle ajuste les données. 

Un autre moyen de mesurer l’ajustement consiste à étudier l’écart entre les valeurs 
observées et les valeurs ajustées par le modèle. Pour le modèle logistique, il s’agira 
de confronter les observations y; aux valeurs ajustées p ô (xi). Plus généralement, 
dans le cas de données répétées, on confrontera les jj aux valeurs nipa(že). La 
statistique de Pearson est définie par la somme des carrés des écarts normalisés 
entre ÿ à nep a (Ht) sur tous les points de design Z; : 


T ~ (x \\2 
P=Y C (11.22) 
i nipa (č) (1 — Pg(&)) 

Les statistiques D et P mesurent l'adéquation du modèle logistique considéré. Si 
elles sont proches de 0, on peut considérer que le modèle ajuste bien les observa- 
tions, si elles sont élevées l’ajustement est mauvais. Une valeur faible ne signifie 
cependant pas que le modèle est bon, la qualité dépend également de la complexité 
du modèle (c’est-à-dire du nombre de paramètres à estimer dans le modèle). Les 
tests d’adéquation de la déviance et de Pearson permettent de prendre en consi- 
dération ce compromis « ajustement/complexité ». Sous les conditions suivantes : 
— le nombre de points de design T est fixé et ne dépend pas de n; 

— les nombres de répétitions n; sont suffisamment grands. 

Les lois des statistiques D et P peuvent être approchées par une loi du x? à T — p 
degrés de liberté sous Ho (on rappelle que p est le nombre de paramètres du modèle 
logistique). Cela signifie que si on dispose de suffisamment de répétitions en chaque 
point de design, on peut utiliser les statistiques D et P pour tester l’adéquation. Il 
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suffit de comparer ces statistiques au quantile d’ordre 1 — a de la loi du x? à T — p 
degrés de liberté. Si on est en présence de données individuelles, ou qu’on a peu 
de répétitions sur les points du design (n; petit), ces tests ne pourront pas être 
utilisés. On a souvent recours au test de Hosmer et Lemeshow que nous présentons 
dans la partie suivante. 


Test de Hosmer et Lemeshow 


Ce test permet de vérifier l’adéquation du modèle logistique en présence de don- 
nées individuelles (ou lorsqu'on a peu de répétitions sur les points du design). 
L'approche consiste à se rapprocher du cas de données répétées en créant des 
groupes d'observations « proches ». Une statistique de type Pearson est ensuite 
définie en utilisant ces groupes. On se place dans le cas de données individuelles 
(xi yi) i = 1,...,n. Le test s'effectue de la manière suivante (voir Hosmer & 
Lemeshow (2000), chapitre 5 pour plus de précisions). 


1. Les probabilités p; (xi) sont ordonnées par ordre croissant. 


2. Ces probabilités ordonnées sont ensuite séparées en K groupes de taille égale 
ou approximativement égales si K ne divise pas n (on prend souvent K = 10). On 
note pour k variant de 1 à K : 


— mx les effectifs du groupe k; 
— op le nombre de succès (Y = 1) observés dans le groupe k; 
— Hk la moyenne des pg (xi) dans le groupe k. 


La statistique de test est définie par 


C= 5 (or — mix) 
mb (1 = pr) 


Le test se conduit de maniére identique aux tests de déviance et de Pearson, les 
hypothéses sont les mémes et la statistique C? suit approximativement sous Ho 
une loi du x? à K — 2 degrés de liberté. Sur R la fonction logitgof du package 
generalhoslem permet de réaliser ce test. On testera par exemple l’adéquation du 
modèle logistique permettant d’expliquer la variable chd par les autres variables 
du jeu de données SAheart avec 

> model <- glm(chd ~ ., data = SAheart, family = binomial) 

> library (generalhoslem) 

> logitgof(obs= SAheart$chd, exp = fitted(model)) 


Hosmer-Lemeshow C statistic 


data: SAheart$chd, fitted(model) 
X-squared = 6.6586, df = 8, p-value = 0.5739 
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La statistique de test suit une loi du x? à 8 degrés de liberté (par défaut K = 10), 
on acceptera l'hypothèse nulle au niveau 5% : le modèle logistique avec toutes les 
variables est satisfaisant. 


11.4.3 Analyse des résidus 


Comme pour le modèle linéaire, les résidus permettent de mesurer l'écart entre 
chaque observation et sa valeur ajustée par le modèle. Les objectifs sont identiques : 
identifier des valeurs aberrantes, des points leviers. Nous présentons dans cette 
section uniquement les différents types de résidus pour le modèle logistique. Pour 
plus de précisions sur leur analyse, on pourra se référer au chapitre 3. 


Les différents types de résidus 


On reste dans le cas général de données répétées présenté dans la section pré- 
cédente. Pour chaque point d’observation Z,, le modèle renvoie une estimation 
pa(č:) de la probabilité que Y soit égale à 1. Une première façon de mesu- 
rer l'écart entre l’observation % et sa valeur ajustée par le modèle est donc de 
considérer Je — nepg(%1). Ces résidus sont appelés résidus bruts. Ils permettent 
de mesurer l’ajustement du modèle sur chaque observation. Ces résidus n’ayant 
pas la même variance, ils sont difficiles à comparer. En effet, comme V(ÿ) = 
rupe(tr)(1 — ps(&)), la variance des résidus bruts risque d’être élevée pour des 
valeurs de pg(%+) proches de 1/2. Un moyen de pallier cette difficulté est de stan- 
dardiser les résidus en divisant les résidus bruts par leur écart-type estimé. On 
obtient les résidus de Pearson : 

PR a AR (11.23) 

ypa E) a pa(%)) 


La standardisation n’est cependant pas tout a fait correcte. Elle est effectuée en 
prenant en compte la variance de %, pas celle de f — npg (Z,) (il ne faut pas 


oublier que pa (+) est aléatoire). Pour prendre en compte cette dernière variance, 
on utilise le fait que la variance de J — nipale) peut être approchée par 


(1 — he) VG) = (1 — he) rep (č) (1 — pa (%t)) 
où hz est le t° élément de la diagonale de la « hat » matrice (voir Collet 2003) 
H = WAP RR WRAL WY?, 
où X est la matrice T x p contenant les points de design et W; la matrice diagonale 


T x T dont le t° élément de la diagonale vaut nzp3(xz)(1 — p4(xe)). On peut alors 
définir la version standardisée des résidus de Pearson par 


LPS _ Te — npa (Ht) 


al , tel 
mpg) — pg(%e))(1 — he) 


T. 


pe. 
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On remarque que la statistique de test de Pearson (11.22) s’écrit comme la somme 
des carrés des résidus de Pearson (11.23). Cela donne une nouvelle interprétation 
à cette statistique : elle est définie comme la somme des écarts (au sens des résidus 
de Pearson) entre chaque observation et sa valeur ajustée. En procédant de façon 
identique pour la déviance, on obtient les résidus de déviance 


êp = signe(J:—nepg(%z)) | 2 i log (aa 5) + (m — Je) log (5) 


nepal Nt — nipale) 


Pour tenir compte de la variabilité, ces résidus peuvent être standardisés : 


Les résidus de Pearson et de déviance sont les plus utilisés et sont généralement 
renvoyés par les logiciels statistiques. 


Remarque 

— Les résidus de déviance sont le plus souvent privilégiés. En effet, lorsque les 
nombres de répétitions n; sont grands, ces résidus suivent approximativement 
une loi W(0,1). Leur analyse est ainsi similaire à celle du modèle de régression 
linéaire. En présence de données individuelles, nous n’avons pas d’information 
précise sur la loi de ces résidus. On sait juste qu’ils sont approximativement 
d’espérance nulle et de variance 1. 

— Il existe d’autres types de résidus pour le modèle de régression logistique. On 
pourra par exemple regarder les résidus partiels qui s’interprètent de la même 
façon que dans le modèle linéaire (voir section 3.4.3) et permettent d’identifier 
des effets non linéaires dans le modèle. Sur R on obtiendra ces résidus à l’aide de 
la commande : 


| > residuals(model,type="partial") 


Analyse des résidus 


Les analyses sont essentiellement graphiques et consistent à tracer des « index 
plot » avec en abscisse le numéro de l’observation et en ordonnée le résidu ou 
encore à représenter le résidu ê en fonction de la combinaison linéaire #8. En 
présence de données individuelles, on observera fréquemment une structure sur 
ce type de représentation. C’est le cas sur l’exemple suivant : commençons par 
estimer les paramètres du modèle complet avec toutes les variables explicatives du 
jeu de données SAheart : 


| > model <- glm(chd ~ ., data = SAheart, family = binomial) 


J 


En utilisant ce modèle, nous pouvons ajuster les observations sur l’échelle linéaire 
X grâce à l’ordre suivant : 
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> prev_lin <- predict (model) 


Puis nous obtenons les différents types de résidus par : 


> res_P <- residuals(model, type = "pearson") #Pearson 

> res_PS <- rstandard(model, type = "pearson") #Pearson standard 
> res_D <- residuals(model, type = "deviance") #Deviance 

> res_DS <- rstandard(model, type = "deviance") #Deviance standard 


Enfin la représentation des résidus (voir figure 11.5) est obtenue par : 


> par(mfrow=c(2, 2), pch=20) 
plot(res_PS, xlab="index", ylab="Pearson Standard") 
plot(prev_lin, res_PS, xlab="Prevision lineaire", 
ylab="Pearson Standard") 
plot(res_DS, xlab="index" ,ylab="Deviance Standard") 
plot(prev_lin, res_DS, xlab="Prevision lineaire", 
ylab="Deviance Standard") 
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Fig. 11.5 — Index plot (gauche) et tracé du résidu contre la prévision linéaire 
(droite) pour les résidus de Pearson (haut) et de déviance (bas) standardisés. 
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Nous observons sur les graphiques de droite (figure 11.5) une structure particuliére. 
Ce type de structure apparait fréquemment en présence de données individuelles 
et rend peu utile ce type de représentation. Les graphiques de gauche ou « index 
plot » sont plus aisés a lire et sont donc conseillés, notamment celui en bas a 
gauche (résidus de déviance standardisés). Ici aucun point ne semble trés loin de 
Vintervalle (-2,2) et le modéle ne présente donc pas de point visiblement aberrant 
(avec de fortes valeurs de résidus). Les résidus de Pearson ont des variations plus 
exagérées. 


Résidus partiels 


Nous reprenons ici les résidus partiels présentés dans la section 3.4.3 (p. 65). Ces 
résidus servent à savoir, pour chaque variable explicative, si elle intervient de 
manière linéaire (comme prévu par le modèle) ou si il faut ajouter une fonction non- 
linéaire de cette variable explicative. Rappelons la définition des résidus partiels 
(ici la {° coordonnée) dans le cadre du modèle linéaire pour la variable X; : 


[êb]: = (yi — ĝi) + Bp Xij, 


ou ĝi = xÊ est la prévision (ou ajustement) de la valeur y; mais aussi de la valeur 
moyenne E(y;) = xi. Nous avons donc 

— un premier terme qui est l’écart entre une valeur observée et l’ajustement de 
la valeur moyenne (terme A, = y; — fi) ; 


— additionné à un second terme qui l’effet de la variable j et qui vaut By X. a 
Pour adapter cette définition à notre cadre rappelons la définition de notre modèle : 


log (E) = BiTi +... + Bptip = MB. 


— Dans le premier terme, la prévision de la valeur moyenne en i, notée pg (x;), est 
ici pg(ai). L'écart entre une valeur observée et l’ajustement de la valeur moyenne 
est simplement Ay = yi — D (xi); 
— Le second terme est toujours l'effet de la variable j (au point i) valant By Xa : 
— Mais pour additionner ces deux termes, il faut qu’ils soient sur la méme échelle, 
ce qui n’est plus le cas ici. En effet, équation du modèle montre que pour passer 
de l’échelle des observations y; ou de leur moyenne pg(x;) à Véchelle des B;xi; 


nous utilisons la fonction logit car logit(psa(x;)) = log (E). 
Cette fonction à valeur réelle p + x = logit(p) est différentiable à l’ordre 1 et 


nous avons donc 
Ar = logit’ (pg(xi))Ay + o(Ay). 


En partant de l’écart sur l’échelle des observations A, il faut le multiplier par 
logit’(p3(2i)) pour obtenir un écart sur l’échelle (des effets) des variables. Le 


calcul de la dérivée logit! (pg (a;)) vaut ici TOLEI 
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En conclusion, nous avons la définition suivante. 


Définition 11.1 (Résidus partiels du modéle logistique) 
Pour le modèle logistique, les résidus partiels pour la variable X; sont par définition 
un vecteur de R” dont la iê coordonnée vaut : 
j (yi — pri) 4 
|; = £ + Bai. 
ri = Fay — pale) * PP 


Ces résidus s’analysent comme dans le modèle de régression. Si le le graphique 
des n points {(X;;, EAR) ae montre une tendance linéaire alors la variable X; 
intervient bien de manière linéaire, le modèle est correct pour la variable j. Si par 
contre la tendance sur le graphique est non linéaire selon une fonction f(.), il sera 
bon de remplacer X; par f(X;). Pour un exemple concret d'utilisation, voir la 
section 14.5.3 (p. 344). Dans le modèle logistique, il existe aussi les résidus partiels 
augmentés qui dans certaines situations (Mallows, 1986), peuvent être meilleurs 
que les résidus partiels 


Définition 11.2 (Résidus partiels augmentés du modèle logistique) 
Pour le modèle logistique, les résidus partiels augmentés pour la variable X; sont 
par définition un vecteur de R” dont la iê coordonnée vaut : 


[a i — (yi — pa(x:)) 
aii pa(æi)(1 — pa(ai)) 
où à est Vestimation du paramètre dans le modèle logistique augmenté d’un terme 
quadratique pour la j° variable : logit(pa(x:)) = Xi +... + ap Xip + Opp Xj. 


X à 2 
+ à; Xi; + Opti Xij» 


11.5 Choix de variables 


Les motivations concernant le choix des variables à inclure dans le modèle lo- 
gistique sont quasiment identiques à celles du modèle linéaire : oublier des va- 
riables pertinentes risque d'introduire du biais dans les estimateurs, inclure des 
variables inutiles va augmenter la variance des estimateurs... De plus, du point de 
vue de l’utilisateur, il est souvent important de déterminer parmi {.X1,..., Xp} le 
« meilleur » sous-groupe de variables permettant d’expliquer Y. Un tel choix s’ef- 
fectue à l’aide de critères de choix de modèles. Nous présentons dans cette section 
les critères usuels qui permettent de sélectionner des variables dans un modèle 
logistique. 


11.5.1 Tests entre modèles emboités 


A l’image de ce qui a été fait dans la section 5.5.2, nous souhaitons comparer un 
modèle restreint avec po paramètres au modèle global (avec p paramètres). Soit 
Po < p, on souhaite comparer le modèle Mo 


logit(p.(x)) = 171 +... + YpoLpo 
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avec le modèle global M: 


logit(pa(x)) = Bit +... + bpp. 


Une telle comparaison peut s'effectuer à l’aide d’un test d’hypothèses. En effet, 
plaçons-nous dans Mı et considérons les hypothèses 


Ho: Bog ft =: = Bp = 0 contre Hı: Jj € {po + 1,..., p} : 8; #0. 


On remarque que accepter Ho signifie que l’on peut privilégier Mp au détriment 
de Mı. Ce test peut se réaliser à l’aide des procédures (Wald et rapport de vrai- 
semblance) présentées dans la section 11.2.3. A titre d'exemple, nous proposons 
de comparer ici deux modèles emboités sur les données SAheart à l’aide du test 
du rapport de vraisemblance : 


> model0 <- glm(chd ~ sbp + ldl, data = SAheart, family=binomial) 
> modeli <- glm(chd ~ sbp + ldl + famhist + alcohol, data=SAheart, 
+ family = binomial) 

> anova(model0, modeli, test = "LRT") 

Analysis of Deviance Table 


Model 1: chd ~ sbp + ldl 
Model 2: chd ~ sbp + ldl + famhist + alcohol 
Resid. Df Resid. Dev Df Deviance Pr(>Chi) 


1 456 548.18 
454 522.64 2 25.545 2.838e-06 *** 
Signif. codes: 0 ‘*x%xx’ 0.001 ‘**’ 0.01 ‘x? 0.05 ‘.? 0.1 £7? 1 


Le test rejetant l’hypothèse nulle, on choisira le modèle à 4 variables. 


11.5.2 Procédures automatiques 


L'approche précédente permet uniquement de choisir un modèle parmi deux mo- 
dèles emboîtés. Elle ne permet pas de sélectionner automatiquement un sous- 
groupe de variables explicatives. En présence de p variables explicatives X1,...,Xp, 
2P modèles peuvent être envisagés (sans prendre en compte les interactions). 
L'approche la plus naturelle pour sélectionner un modèle parmi ces 2? revient 
à construire tous ces modèles et à choisir celui qui optimise un critère de choix de 
modèle donné. Cet algorithme est appelé Best subset selection (voir algorithme 5). 


A nombre de variables k fixé, l'algorithme utilise la vraisemblance pour choisir le 
meilleur modèle à k variables (étape 1). La vraisemblance ne peut en revanche 
pas être utilisée pour choisir un modèle parmi les M;,j = 0,...,d. En effet la 
vraisemblance augmente avec le nombre de paramètres et il est facile de voir que 
Ma est le modèle qui aura la plus grande vraisemblance. C’est pourquoi l’étape 2 
utilise un critère de choix de modèles pour choisir parmi les M,,0,...,d. 
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Algorithme 5 Best subset selection 
1. Pourk=0,...,d: 


d 
k modèles logistiques à k variables ; 

(b) Choisir parmi ces modèles celui qui a la plus grande vraisemblance. On note 
Mz, le modèle sélectionné. 


(a) Construire les 


2. Choisir, parmi Mo, M1,..., Ma, le meilleur modèle au sens d’un critère donné. 
» P 0; > > ; 


Parmi les critères les plus utilisés, on retrouve, comme pour le modèle linéaire, 
VAIC et le BIC. Ces critères pénalisent l’opposé de la log-vraisemblance d’un 
modèle M par son nombre de paramètres |M| : 


AIC(M) = —2LM(Y,8)+2|M| et BIC(M) = -2Lm(Y, Ê) + |M|log(n), 
(11.24) 

où Ly (Y, Ê) désigne la log-vraisemblance maximisée du modèle logistique M. Ces 
critères sont basés sur deux parties : 

— la composante —2Lm (Y, B) mesure l'ajustement du modèle aux données (va- 

leurs faibles pour de bons ajustements) ; 

— les composantes 2|M| pour PAIC et |M|log(n) pour le BIC mesurent la com- 

plexité du modèle. 
Ces critères (à minimiser) sélectionneront donc des modèles qui réalisent un bon 
compromis entre qualité d'ajustement et complexité. 


Remarque 

Puisque log(n) est généralement plus grand que 2 (dès que n > 8), la pénalité BIC 
est plus grande que la pénalité AIC. Par conséquent, le critère BIC aura tendance 
à choisir des modèles plus parcimonieux que le critère AIC. 


Exemple 11.7 
Sur R, le package bestglm permet de choisir un modèle avec l’algorithme 5. On 
Vutilise ici pour sélectionner des variables sur les données (complètes) SAheart. 


> library(bestglm) 
> data(SAheart) 
> mod_sel <- bestglm(SAheart, family = binomial) 
Morgan-Tatar search since family is non-gaussian. 
> mod_sel$BestModels 
sbp tobacco ldl adiposity famhist typea obesity alcohol age Crit 


1 FALSE TRUE TRUE FALSE TRUE TRUE FALSE FALSE TRUE 506.4 
2 FALSE TRUE FALSE FALSE TRUE TRUE FALSE FALSE TRUE 509.3 
3 FALSE TRUE TRUE FALSE TRUE FALSE FALSE FALSE TRUE 510.0 
4 FALSE FALSE TRUE FALSE TRUE TRUE FALSE FALSE TRUE 510.6 


5 FALSE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE 510.8 
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On peut lire les 5 meilleurs modèles sélectionnés au sens du BIC (c’est le critère de 
choix de modèle par défaut dans la fonction bestglm). Le modèle sélectionné sera 
donc le modèle logistique ayant pour variables explicatives tobacco, 1d1, famhist, 
typea et age. Si on veut changer le critère de choix de modèles, il suffit de modifier 
Vargument IC de la fonction bestglm. Pour l’AIC, on utilisera 


| > mod_seli <- bestglm(SAheart, family = binomial, IC = "AIC") 
Morgan-Tatar search since family is non-gaussian. 
> mod_seli$BestModels 

sbp tobacco ldl adiposity famhist typea obesity alcohol age Crit 


1 FALSE TRUE TRUE FALSE TRUE TRUE FALSE FALSE TRUE 485.69 
2 FALSE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE 485.98 
3 TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE 486.55 
4 TRUE TRUE TRUE FALSE TRUE TRUE FALSE FALSE TRUE 486.65 
5 FALSE TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE 487.44 


Sur cet exemple, AIC sélectionne le même modèle que le BIC. 


Remarque 

La procédure exhaustive présentée dans l’algorithme 5 nécessite le calcul de 2? 
modèles logistiques. Elle peut donc devenir très coûteuse en temps de calcul lorsque 
le nombre de variables p est grand (au-delà de p = 30 généralement). Dans ce cas, 
les procédures pas à pas (ascendantes, descendantes et progressives) sont alors 
nécessaires. Ces méthodes sont identiques au cas de la régression linéaire et nous 
renvoyons le lecteur à la section 7.4.2 pour plus de précisions. Sur R, on peut 
utiliser la fonction step ou l’argument method=backward (ou method=forward) 
dans la fonction bestglm pour lancer ces procédures pas à pas. 


11.6 Exercices 


Exercice 11.1 (Questions de cours) 
1) Nous souhaitons effectuer une régression logistique, on utilise la fonction glm en préci- 
sant 
A. family=binomial, 
B. en ne précisant rien, 
C. family=poisson. 
2) Lors d'une régression logistique (hors modèle saturé ou constant), les estimateurs sont 
obtenus en utilisant un algorithme itératif : 
A. oui toujours, 
B. non jamais, 
C. seulement si les variables explicatives sont qualitatives. 
3) Un estimateur de la variance de B de B dans le cas de la régression logistique vaut : 
A. &’(X'X) !, 
B. (X'W,X) , 
C. 67(Wa)t. 
4) Pour estimer les paramètres d'une régression logistique, on 
A. maximise la vraisemblance, 
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B. minimise le nombre de faux positifs, 
C. minimise les moindres carrés. 
5) Les probabilités p; du modèle « saturé » en chaque unique point du design #+ (avec 
& Æ À pour t Æ l) sont estimées par 
A. la moyenne = ben Yillz,(ai) avec nt = es Ta, (xs), 
B. la somme ee Yelle, (Li) avec ne = Es La, (zi), 
C. l'inverse du logit appliqué à la somme as Yilla, (ti) avec nt = pen Te, (ti). 
6) Le modèle de régression logistique 
A. impose qu'en chaque unique point du design Z%, (avec % Æ % pour t Æ l) la somme 
des Y%:1z,(x:) suive une loi binomiale, 
B. impose que les y; suivent une loi de Poisson. 
7) Les modéles de régression logistique 
A. imposent qu'en chaque unique point du design la variance est constante (égale à o°), 
B. imposent qu'en chaque unique point du design la variance vaut nep:(1 — pt), 
C. imposent qu'en chaque unique point du design la variance vaut npr. 
8) Les intervalles de confiances en régression logistique (de niveau 1 — a) pour les coor- 
données de 8 
A. sont approximativement de niveau 1 — a, 
B. sont précisément de niveau 1 — a. 


Exercice 11.2 (Interprétation des coefficients) 
On considère X une variable aléatoire qualitative qui suit une loi uniforme de support 
{A, B,C} et Y une variable dichotomique telle que : 


YIX = A = Ber(0.95), Y|X = B ~ Ber(0.95), Y|X = C ~ Ber(0.05). 


1) Simuler un échantillon (X;,Y;),i = 1,...,n de taille n = 100 tirés selon la loi de 
(X,Y). 
2) Construire le modèle 1 : 


logit(pa(x)) = Bo + 6114 (£) + b218 (x) + Bslc(x) 


muni de la contrainte 6; = 0 (on pourra utiliser la fonction glm). 
a) Donner les estimations des paramètres. 
b) Faire un summary du modèle et analyser les sorties (on précisera notamment les tests 
effectués). 

3) Construire le modèle 2 : 


logit(pa(x)) = Bo + 6114 (£) + b218 (x) + Bslc(x) 


muni de la contrainte 3 = 0 (on pourra utiliser la fonction glm). 
a) Donner les estimations des paramètres. 
b) Faire un summary du modèle et analyser les sorties (on précisera notamment les tests 
effectués). 
4) Comparer les probabilités critiques du test Ho : G2 = 0 contre Hı : 82 Æ 0 pour les 
deux modèles construits. Interpréter. 
5) Proposer et mettre en œuvre un test statistique permettant de répondre à la question : 
Peut-on dire que X à un effet sur Y ? 


Exercice 11.3 (Séparabilité) 
1) Générer un échantillon (x, yi), i = 1,...,100 tel que 
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— pouri=1,...,50, x; est le réalisation d'une loi uniforme sur [—1, 0] et y: = 0; 
— pouri=51,...,100, x est le réalisation d'une loi uniforme sur [0,1] et y; = 1. 
2) On considère le modèle logistique permettant d'expliquer Y par X sans la constante : 


logit(pa(x)) = Ba. 


Représenter sur un graphe la log-vraisemblance de ce modèle en fonction de 5. On pourra 
faire varier B entre O et 100. 

3) Estimer le paramètre du modèle logistique à l’aide de la fonction glm. Que remarquez- 
vous ? 

4) On considère le même échantillon en remplaçant la première valeur de Y par 1 (yi = 1). 
Refaire les questions 2 et 3 avec ces données. 


Le problème mis en avant ici est celui de la séparabilité des données. Dans le premier échan- 
tillon, les deux groupes sont en effet parfaitement séparés puisque Y vaut 1 lorsque X est 
positif et O lorsque X est négatif. Dans ce cas, la vraisemblance tend vers 1 lorsque ( tend 
vers +00 et il n'existe donc pas de solution finie au problème de maximisation de la vrai- 
semblance. Cette notion de séparabilité des données est présentée en détails dans l'article de 
Albert & Anderson (1984). 


Exercice 11.4 (Matrice hessienne) 
Montrer que la matrice hessienne de la log-vraisemblance (11.7) est définie négative si X est 
de plein rang et en déduire le proposition 11.1. 


Exercice 11.5 (Modèles avec R) 
On souhaite expliquer des pannes de machines. Pour ce faire, on dispose : 


— d'une variable etat qui vaut 1 si la machine est en panne, O sinon; 
— d'une variable age qui correspond à l'âge de la machine; 
— d'une variable marque qui représente la marque de la machine (A, B ou C). 


Voici les 5 premiers individus du jeu de données : 


> head (panne) 
etat age marque 


1 0 4 A 
2 1 2 C 
3 0 3 C 
4 0 9 B 
5 al y B 


1) On effectue : 


> model <- glm(etat ~ ., data = panne, family = binomial) 
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> model 
Call: glm(formula = etat - ., family = binomial, data = panne) 
Coefficients: 
(Intercept) age marqueB marqueC 
0.47808 0.01388 -0.41941 -1.45608 


Degrees of Freedom: 32 Total (i.e. Null); 29 Residual 
Null Deviance: 45.72 
Residual Deviance: 43.5 AIC: 51.5 


Ecrire le modèle ajusté et donner les estimations des paramètres du modèle. 
2) On effectue : 


> library (car) 
> Anova(model, type = 3, test.statistic = "Wald") 
Analysis of Deviance Table (Type III tests) 


Response: etat 
Df Chisq Pr(>Chisq) 


(Intercept) 1 0.3294 0.5660 
age ? 0.0218 0.8826 
marque ? 1.9307 0.3809 


Ecrire le test correspondant à la ligne marque du tableau ci-dessus (on donnera les hy- 
pothèses, la statistique de test, sa loi sous Hg et la conclusion du test. On complètera 


également le tableau (en remplaçant les «? »)). 
3) Même question que précédemment pour la commande : 


> Anova(model, type = 3, test.statistic = "LR") 
Analysis of Deviance Table (Type III tests) 


Response: etat 

LR Chisq Df Pr(>Chisq) 
age 0.02189 ? 0.8824 
marque 2.09562 ? 0.3507 


4) On souhaite expliquer l'état de la machine par la marque uniquement. 


a) Ecrire le modèle logistique permettant de réaliser cela (on prendra comme modalité de 


référence la modalité C de la variable marque). 
b) On ajuste le modèle sur R : 


> glm(etat ~ marque, data = panne, family = binomial) 
Coefficients: 


(Intercept) marqueB marqueC 
0.56 -0.43 -1.48 
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Donner les estimations des paramètres du modèle écrit à la question précédente. 
c) Ecrire le modèle utilisant comme contrainte la nullité de la somme des coefficients des 
modalités de marque. Donner les estimations des paramètres de ce modèle. 
5) Donner la définition de l'interaction entre les variables X; et X2. 
6) Soit x = (#1, £2) où xı représente l'âge d'une machine et x2 sa marque. On considère 
le modèle 
ao +@1x1 sizz = À 
logitps(x) = Bo + Fir, Ssiz2=B 
yo +yızı sizz =C 


On lance sur R: 


> glm(etat ~ marque + age + age:marque, data = panne, family = binomial) 


Coefficients: 
(Intercept) marqueB marqueC age marqueB:age marqueC:age 
0.24 0.20 -2.43 0.06 Omii 0.22 


Calculer les estimations des paramètres aj, Bj, Yj, j = 0,1. 


Exercice 11.6 (Interprétation) 
Le fichier Logit_ex6.csv contient n = 500 observations d'une variable binaire Y et de deux 
variables continues X1 et X2. On cherche à expliquer Y par X1 et X2 à l'aide d'un modèle 
logistique. 
1) Construire sur R le modèle logistique avec les deux variables explicatives X1 et Xo. 
Interpréter les tests de nullité des coefficients du modèle. 
2) Même question pour le modèle logistique possédant uniquement X1 comme variable 
explicative. 
3) Interpréter. 


Exercice 11.7 (Tests "à la main") 

On dispose de n = 5 observations (21, y1),...,(%n, Yn) telles que x; € R et y; € {0,1}. 
Les x; correspondent à des observations d'une variable X supposée déterministe et les y; 
correspondent à des observations d'une variable Y. On cherche à expliquer Y par X. Les 
données sont dans le tableau suivant. 


x; || 0.47 | -0.55 | -0.01 | 1.07 | -0.71 
y| 1 0 0 1 1 


1) Ecrire le modèle de régression logistique permettant d'expliquer Y par X (on inclura la 
constante dans le modèle). 
2) Les estimations p;(x:) des probabilités Pr(Y; = 1) par ce modèle sont 


p(x1) = 0.76, pa(x2) = 0.40, p;(x3) = 0.60, p4(xa) = 0.89, pg (a5) = 0.35. 


A 


Calculer la log-vraisemblance maximisée £,(B) du modèle. 
3) On trouve ci-dessous un extrait du tableau des coefficients de ce modèle ajusté sur R. 


Coefficients: 

Estimate Std. Error z value Pr(>|zl) 
(Intercept) 0.4383 ??7? 2°? 77? 
X 1.5063 ??7? ??7? ??? 
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a) Compléter les colonnes Std. Error et z value. 

b) Proposer deux procédures de test permettant de tester la nullité du coefficient associé 
a la variable explicative X. On pourra prendre un niveau de test de a = 5%. 

c) Effectuer les deux tests. 


Exercice 11.8 (Vraisemblance du modèle saturé) 
Démontrer la proposition 11.2. 


Exercice 11.9 (f Intervalle de confiance profilé) 

Pour un modèle de régression logistique à une variable explicative X (logit(ps(x)) = B1 + 
B2x), un intervalle de confiance pour 82 (par exemple) basé sur la vraisemblance L(Y, 81, 82) 
utilise la vraisemblance « profilée ». La vraisemblance « profilée » pour le paramètre d'intérêt 
B2 est une fonction de B2 qui vaut [(B2) = maxs, c L(Y, 61, B2). Un intervalle de confiance 
de niveau 1 — a est alors 


(87,83) = {83 € R | 2(L(Y, Ai, Ba) — I(83)) < a (1 — a)}, 


où qi(1 — a) est le quantile de niveau 1 — a d'une loi x?(1). Notons pour la suite de cet 
exercice P(63) = 2(L(Y, bi, Bo) — 1( 85). 

Afin de trouver 6; et F les deux bornes de cet intervalle, nous calculons sur une grille de 
valeurs de 33 «bien choisies », les valeurs de profil P(G3) correspondantes. Comme il est 
peu probable de tomber exactement sur deux valeurs de la grille qui forment les bornes de 
l'intervalle recherché, une étape d’interpolation supplémentaire sera nécessaire. 


1) Ajuster le modèle pour le jeu de données artere.txt. Extraire les coefficients estimés 
(fonction coef) et les assigner dans un vecteur nommé BO. Le modèle logistique est donc le 
suivant (1) : les {y;}7_ (chd) sont iid et suivent une Bernoulli de paramètre pg(x;) avec 
logit(ps(x)) = 61 + Bex (où X dénote la variable age). Affecter dans OriginalDeviance 
la déviance du modèle (composante deviance du modèle obtenu). 

2) Le niveau 1 — a de l'intervalle de confiance sera choisi égal à 95% et donc a = 0.05. 
3) Construisons une grille d'évaluation autour de Bo de la forme suivante : ... , Bo — 26, B2— 


Pour cela nous souhaitons faire assez peu de calculs et faire une grille d'une longueur de 
10-20 valeurs. On sait par construction que P(B2) = 0 et plus nous éloignons de Bo vers le 
bas ou vers le haut, plus P(8ž) augmente vers qi(1— a). 

La grille va être construite comme suit : le pas à sera égal à \/qi(1 — a/4) * 63, /5. 
Affecter le résumé du modèle (fonction summary) dans un objet provisoire (de type liste). De 
cette liste, extraire les écarts-types estimés des coefficients (composante coefficients) que 
l'on affectera dans l'objet stderr. Calculer ô en utilisant l'écart-type estimé et la fonction 
qchisq. Construire un vecteur grille avec des valeurs variant de +10.6 autour de Bo. 

4) Pour chaque coordonnée de grille nous allons calculer la fonction de vraisemblance 
profilée. Pour cela nous utiliserons la fonction glm et l'argument offset. Rappelons que 
la valeur de (3 est fixée à une valeur de grille, par exemple Bo + 36. Pour cette valeur 
nous devons estimer par maximum de vraisemblance les paramètres du modèle restant (il 
n'en reste qu'un : 31). Pour cela nous allons utiliser la notion d'offset. L'offset est, dans un 
modèle GLM, un vecteur K de coordonnées K1,...,K, de valeurs fixées qui se rajoute à 
la partie linéaire. Pour un modèle logistique à une variable X et un offset K, nous avons 
donc pour la ¿f observation 


logit(pa(xi, Ki)) = Ki + Bi + Bai. 
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L'ajustement de ce modèle conduira à l'estimation de 2 paramètres 3; et G2 ce qui n'est 
pas ce que nous souhaitons ! Par contre, le modèle avec uniquement la constante (intercept 
en anglais) et un offset K; = (82 + 36)a; va donner 


logit(ps, (Ki)) = Ki + Bi = Bi + (62 + 30) 


et conduira à estimer par maximum de vraisemblance uniquement 3; (rappelons que l'offset 
est fixe) et nous donnera donc la vraisemblance profilée au point voulu : 1(B2 + 36). 

En se rappelant la définition de la déviance, montrer que P(B2 + 36) est simplement la 
différence de la déviance du modèle avec offset et la déviance du modèle (1) de départ. 

5) Pour toutes les valeurs de k utilisées pour grille, calculer les valeurs de P(B2 + kô) et 
stocker le résultat dans profil2. 

6) Calculer la racine carrée de profil2 et lui donner un signe positif quand k > 0 et 
négatif quand k < 0. Le résultat sera nommé profil (il s'agit bien de \/ P(.) (signée) pour 
différentes valeurs de la grille et non pas de P(.) mais c'est sur cette échelle que travaille 
R). 

7) En utilisant grille, profil et la fonction d'interpolation spline, trouver les 2 valeurs 
qui permettent d'obtenir les valeurs de profil égales à +,/q1(1 — a). 

8) Comparer ces valeurs à celles obtenues avec la fonction confint (le logiciel R n'utilise 
qu'une partie des valeurs de grille, ce qui explique la légère différence numérique). 


Chapitre 12 


Régression de Poisson 


Les modèles linéaire et logistique étudiés dans les chapitres précédents présentent 
de nombreuses similitudes. On peut utiliser un protocole identique pour les définir 
qui consiste à d’abord choisir une loi pour y; puis à trouver une fonction pertinente 
qui permet de faire le lien entre l’espérance de y; et une combinaison linéaire des 
variables explicatives x;. 

En effet pour le modèle linéaire gaussien, on suppose que y; suit une loi normale 
et on lie l’espérance de y; aux variables x; selon 


g(Ely:]) = Elyi] = 246, 


la fonction utilisée pour ce lien est donc la fonction identité. 
Dans le cas du modèle logistique, y; suit une loi de Bernoulli et le lien entre 
Vespérance de y; et les x; est effectué grâce à la fonction logit : 


g (Œlyi]) = g(ps(xi)) = logit(ps(xi)) = 236. 


On dit que ces modèles appartiennent à la famille des modèles linéaires généralisés 
(GLM). Il s’avére que le formalisme GLM (modèle linéaire généralisé) s’applique à 
d’autres modèles incluant la régression de Poisson. Dans ce chapitre nous présen- 
tons tout d’abord la notion de modèle GLM, puis nous étudierons plus en détail 
la régression de Poisson. 


12.1 Le modèle linéaire généralisé (GLM) 


Nous commençons par définir un modèle GLM. 


Définition 12.1 

On considère n observations indépendantes (x1, Y1),---;(Ln,Yn) où les x; € RP 
sont les variables explicatives déterministes et les y; € R sont des variables aléa- 
toires indépendantes à expliquer. Un modèle linéaire généralisé (GLM) est consti- 
tué de 3 composantes : 
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1. Composante aléatoire. Elle consiste à choisir une loi pour la réponse y; 
parmi les lois dont la densité se met sous la forme 


folds) = exp +6). (12.1) 
où a; E R, 6 > 0 est un paramètre de dispersion et a,b et c sont des fonctions a 
valeurs dans R. 


2. Composante déterministe dénotée n(x:;,0) est une famille paramétrique de 
fonctions. Nous considérerons ici la formulation classique et supposerons qu’elle 
s'exprime sous forme d’une combinaison linéaire des prédicteurs : 


n(xi) = Prt +... + Pois: 


3. Composante de lien. Elle spécifie le lien entre les deuz composantes, plus 
précisément le lien entre Vespérance de y; et la composante déterministe : 


gl) = nee) = irait. - + BpTip 
où g est une fonction inversible appelée fonction de lien. 


Le problème est de bien choisir les 3 composantes en fonction du problème auquel 
on est confronté. Il est important de noter que nous transformons la valeur espérée 
(par la fonction de lien) et non pas les observations. 


Choix de la composante aléatoire. Il est généralement guidé par la nature 
de la variable à expliquer : on pourra utiliser une loi normale (ou Gamma ou 
Bêta) pour une variable quantitative continue, une loi de Bernoulli pour une va- 
riable binaire, une loi multinomiale pour des variables catégoriques avec plusieurs 
catégories, une loi de Poisson pour une variable de comptage, etc. 


Choix de la composante déterministe. C’est le choix le plus difficile pour le 
statisticien. Il s'agira d'identifier : 

— les variables pertinentes à inclure dans le modèle en utilisant par exemple les 
techniques de choix de variables présentées dans le chapitre 7. 

— les éventuelles transformations de variables en utilisant par exemple les résidus 
partiels présentés dans la section 3.4. 

— les interactions pertinentes à ajouter dans le modèle... 


Choix de la fonction de lien. En général, la fonction de lien g est bijective et 
est choisie de sorte que 
g(E(Y)) = 8. 


Il faudra généralement choisir parmi les fonctions de lien classique présentées dans 
le tableau 12.1. 
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Nom du lien || Fonction de lien Domaine 
identité g(u) =u ue R 
log g(u) = log(u) we Rt 
cloglog g(u) = log(— log(1 — u)) | u € [0,1] 
logit glu) = log(u/(1 — u)) u € [0,1] 
probit glu) = ®t (u) u € [0,1] 
réciproque glu) = —1/u u E Rt 
puissance glu) =u”, y #0 u € Rt 


Tableau 12.1 — Fonctions de lien usuelles (® désigne la fonction de répartition 
de la loi M (0, 1)). 


Pour une composante aléatoire (12.1) fixée, une fonction de lien, appelée lien ca- 
nonique, est souvent privilégiée. C’est le lien défini par g(u) = (b’)~1(u) ot b(u) 
est définie à l'équation (12.1). 


Remarques 

— Les fonctions de lien canonique pour le modèle linéaire gaussien et le modèle 
logistique sont respectivement les liens identité et logit (voir exercice 12.2). 

— La fonction glm permet d’ajuster des modèles GLM sur R. Les trois compo- 
santes GLM sont à renseigner dans la fonction : 


| glm(formula, data = ..., family = ...(link = ...)) | 


On indiquera dans formula la composante déterministe : le choix de la combi- 
naison linéaire des variables explicatives. La composante aléatoire et la fonction 
de lien sont à renseigner dans les arguments family et link. Par défaut, si l’ar- 
gument link n’est pas renseigné, R utilise alors le lien canonique. 


Dans ce chapitre, nous allons nous consacrer à la régression de Poisson qui s’ap- 
plique quand Y représente des données de comptage. La loi de Poisson est en effet 
souvent utilisée pour modéliser des variables de comptage, ce sera donc la compo- 
sante aléatoire du modèle GLM puisqu’il est possible d’écrire la loi d’une variable 
Y de loi de Poisson de paramètre À > 0 comme un cas particulier de 12.1 : 

y 
z exp —À 


X 
x 
l 

= 
Il 


= exp(ylogA — À — logyl), (12.2) 


où y E N, a = log(À), bla) = exp(a), a(d) = 1 et c(y, D) = — log y!. Il est facile 
de voir que la fonction de lien canonique associée à cette loi est la fonction log 
(voir exercice 12.2). Par conséquent, pour n observations (xi, yi) i = 1,...,n où 
xi € R?” désigne les variables explicatives et y; la variable à expliquer à valeurs 
dans IN, la régression de Poisson consistera à modéliser la loi de y; par une loi de 
Poisson de paramètre À5(x:;) telle que 


log(Ey;) = log(Ag(xi)) = 248. 
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12.2 Exemple : modélisation du nombre de visites 


Afin de prévenir de la malaria, de nombreuses solutions simples et adaptées aux 
pays en développement existent, par exemple l’utilisation de moustiquaires, ou 
d’un serpentin dégageant de la fumée... Afin d'évaluer les effets relatifs de ces 
différentes stratégies, le docteur Perkins a recruté et étudié 1640 enfants de la 
province de Siaya au Kenya qu’il a suivis pendant de nombreuses années. 

Pour chaque enfant, il a enregistré le nombre de visites à l’hôpital local dues à 
la malaria, l’âge Age de la première visite en mois, le sexe Sexe, l'altitude du 
domicile de l’enfant, la méthode de prévention Prev contre la malaria utilisée a 
domicile et la durée entre le début du recrutement et la fin de la période d’obser- 
vation (fin de l’étude ou sortie de l’étude de l’enfant). Le tableau suivant donne 


les 5 premières observations de l'étude : 
Sexe | Age | Altitude Prev | ObsTime | N.malaria 
M | 259 1318 Rien 423 1 
M | 172 1254 | Serpentin/Spray 714 6 
M | 326 1302 Moustiquaire 1080 7 
M | 573 1301 Moustiquaire 844 0 
F | 460 1307 Moustiquaire 1082 5 


Tableau 12.2 — 5 observations d’enfants. 
Aprés avoir importé les données 
> Malaria <- read.table("poissonData3.csv", sep = ",", header = T) 
commençons par résumer les observations : 


> summary (Malaria) 


Sexe Age Altitude Prev 
F :815 Min. a MOO Min. :1129 Autre z 8 
M :824 ist Qu.: 219.2 ist Qu.:1266 Moustiquaire :1100 
NA’s: 1 Median : 360.5 Median :1298 Rien : 457 
Mean : 419.0 Mean :1295 Serpentin/Spray: 63 
3rd Qu.: 554.0 3rd Qu.:1320 NA’s go 2 
Max :1499.0 Max. 21515 
NA’s :2 NA’s :105 
Duree N.malaria 
Min 0.0 Min 0.000 
ist Qu.: 169.8 ist Qu 1.000 
Median : 720.0 Median : 3.000 
Mean a OLY Mean : 4.679 
3rd Qu.:1011.0 3rd Qu.: 7.000 
Max. :1464.0 Max. :26.000 
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L'objectif de l’étude consiste à expliquer le nombre de visites (N.malaria) par 
les autres variables (potentiellement) explicatives. Remarquons que la variable 
Altitude contient beaucoup de valeurs manquantes (105) et elle ne sera utilisée 
que dans un second temps. Nous allons donc utiliser un jeu de données réduit aux 
trois variables explicatives suivantes Sexe, Prev et Duree. Sur ces données, nous 
éliminons toutes les valeurs manquantes. Afin d’illustrer la méthode, commençons 
par expliquer la variable N.malaria par la durée d’observation (Duree). Débutons 
cette analyse en représentant les données (fig. 12.1). 


| > plot(N.malaria ~ Duree, data = Malaria, pch = 20, cex = 0.5) 
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Fig. 12.1 — Variable N.malaria en fonction de duree. 


Au premier abord, la figure 12.1 laisse penser qu’une régression linéaire simple est 
possible. Cependant cette approche présente de sérieux inconvénients. La régres- 
sion des moindres carrés ne garantit pas la positivité de l’espérance de Y et elle ne 
tient pas compte de de l’hétérogénéité des variances (hétéroscédasticité qui pour- 
rait dépendre de la valeur espérée). Les observations sont clairement plus variables 
autour de 1000 qu’autour de 100. Enfin, estimer un modèle linéaire en utilisant les 
moindres carrés n’est pas équivalent à maximiser la vraisemblance et les résultats 
obtenus ne seront pas optimaux. Malgré cela, nous pouvons tout de même calculer 
et ajouter la droite de régression simple (fig. 12.2) 
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Fig. 12.2 — Variable N.malaria en fonction de l’âge et droite des MC. 


294 Régression avec R 


en utilisant les codes suivants : 


> mod.lin <- Im(N.malaria ~ Duree, data = Malaria) 
> abline(a=coef (mod.lin) [1] ,b=coef (mod.1lin) [2] , lwd=2) 


La variable à expliquer (N.malaria) est une variable de comptage : il s’agit du 
nombre de visites médicales pour la malaria. Nous allons utiliser le même raison- 
nement que dans le chapitre 11 (p. 251) où Y était binaire. Nous avions utilisé la 
loi de Bernoulli de paramètre ps(x) pour Y et avons lié cette loi à une variable 
explicative X selon logit(ps(x)) = 81 + Bex. La variable Y étant une variable de 
comptage, il est naturel d’utiliser la loi de Poisson. Cette derniére dépend d’un 
paramètre À qui est l’espérance de la loi. Chercher à expliquer Y par la durée 
revient à se demander si le paramètre À > 0 varie lorsque la durée varie et donc à 
considérer le paramètre A(x) comme une fonction de la durée x en considérant 


Y = P(Ag(z)), (12.3) 


où Ag = E(Y) est une fonction à spécifier. 

Nous avons vu dans la section 12.1 que la fonction de lien canonique pour la loi 
de Poisson est la fonction log. Ainsi, pour cet exemple, on lie l’espérance de Y 
(N.malaria) à la variable explicative X (duree) via 


log(Ag(x)) = 61 + Box. 


On a ainsi Ag(x) = exp(fB1 + Sex), ce qui nous permet de garantir la positivité 
de g(x). Ce modèle est un modèle linéaire généralisé (section 12.1). On utilisera 
donc la fonction glm, avec l’option family=poisson pour estimer ses paramètres 
(souhaitant utiliser le lien canonique, on ne le renseigne pas puisqu'il sera choisi 
par défaut). 


> modP <- glm(N.malaria - Duree, data = Malaria, family = poisson) 
> modP 


Call: glm(formula = N.malaria - Duree, family = poisson, 
data = Malaria) 


Coefficients: 
(Intercept) Duree 
0.429459 0.001508 


Degrees of Freedom: 1626 Total (i.e. Null); 1625 Residual 
Null Deviance: 5710 
Residual Deviance: 3325 AIC: 8125 


Nous obtenons les estimateurs des paramètres du modèle (12.3) et nous pouvons 
ajouter la courbe Ag(x) = exp (0.429459 + 0.001508x) en pointillé sur le graphe 
précédent et obtenir la figure 12.3. 
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Fig. 12.3 — Variable N.malaria en fonction de duree, droite des MC (trait plein) 
et ajustement de Poisson (tirets). 


Sur ce premier exemple, nous voyons la différence entre une régression MC clas- 
sique et une régression de Poisson. La régression de Poisson permet de tenir compte 
de l’aspect positif de la variable de comptage Y. De plus, la loi de Poisson P(Ag(z)) 
a pour variance Ag(x) qui dépend de x. Cela permet de tenir compte de l’augmen- 
tation de variance avec la durée. Nous allons maintenant étudier plus en détail 
ce modèle et le généraliser à plusieurs variables explicatives (quantitatives et ou 
qualitatives). 


12.3 Régression Log-linéaire 

Il est usuel lorsque nous traitons de données de comptage de faire les hypothèses 
simplificatrices suivantes : 

1. les nombres d'infections dues à la malaria dans des intervalles de temps disjoints 
sont indépendants ; 

2. le taux d'infection est constant dans le temps et est noté À; 


3. la probabilité d’avoir 2 (ou plus) infections dans un petit intervalle de temps 
A tend vers 0 quand la longueur de l'intervalle tend vers 0. 


Sous ces conditions, le nombre d'infections dues à la malaria N suit une loi de 
Poisson de paramètre À. 


12.3.1 Le modèle 


Le modèle de Poisson, ou régression log-linéaire ou encore régression de Pois- 
son, permet d’expliquer une variable de comptage Y par p variables explicatives 
X1,...,X,. Nous le définissons ci-dessous. 


Définition 12.2 
Soit (£1,Y1), ---, (En, Yn) n observations telles que x; = (@i1,..., Lip) € R? et y; € 
IN. Le modèle de régression de Poisson suppose que les observations yi, i =1,...,n 
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sont des réalisations de variables aléatoires indépendantes et de loi de Poisson de 
paramètre Àg(x;) vérifiant 


Remarques 

— Comme pour les modèles linéaire et logistique, si on souhaite inclure la variable 
constante dans le modèle, on prendra x;; égal à 1 pour tout à variant de 1 à n. 
— Les variables explicatives peuvent être quantitatives et/ou qualitatives. Pour 
des variables qualitatives, R effectue un codage disjonctif complet et utilise comme 
contraintes identifiantes que le coefficient associé à la première modalité (par 
ordre alphabétique) de chaque variable qualitative vaut zéro. Si nous considérons 
par exemple un modèle avec deux variables explicatives : Xı quantitative et Xə 
qualitative qui prend ses valeurs dans {A, B, C}, alors le modèle de Poisson s'écrit 


log(Ag(x)) = Bo + 8121 + b214(x) + Bsl8(x) + Balc(x) 


muni de la contrainte G2 = 0. Les problèmes d’identifiabilité ont été abordés 
pour les modèles linéaire et logistique. Ils se traitent exactement de la même 
façon pour la régression de Poisson. Nous renvoyons donc le lecteur au chapitre 
6 et à la section 11.1.3 pour plus de détails. 


12.3.2 Estimation 


On dispose de n observations (%1,y1),---;(@n, Yn) ot (zi, yi) € (R? x N) et les 
yi sont des réalisations de variables aléatoires indépendantes de loi de Poisson de 
paramètre Àg(x;),i = 1,...,n. La vraisemblance du modèle de Poisson s’écrit donc 


wa = I] ME exp (ae) 


avec Y = (y1,...,Un) et B = (B1,...,/3). Il est d'usage de considérer la log- 
vraisemblance 


L(Y, B) =D yi log(As(ai)) — Ap (wi) — log (yi!) 


= > vi(2i8) — exp(x}8) — log(yi!). (12.5) 


Le dernier terme (— log(y;!)), ne dépend pas de B, n’influera pas dans la recherche 

du maximum de la (log-)vraisemblance et pourra ne pas apparaître dans certaines 

équations. Les estimateurs du maximum de vraisemblance, s’ils existent !, sont 
solution des équations normales 
n 

S(b) = VL(B) = D (gi — exp(ai8))ai = X'(Y—Ag)=0, (12.6) 


i=1 


1. Les EMV pour B n'existent pas si pour des j € {1,--- , p}, ll = 00 
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où Ag = (Ag(#1),---,Ag(@n)). La fonction S(.) est appelée fonction de score. 
Nous retrouvons le méme type de formulation qu’avec le modéle logistique (voir 
eq. 11.9 p. 258). En général, il n’existe pas de solution analytique à l’équation 
(12.6). En se basant sur la matrice hessienne 


V'L(B)=-X'WsX avec We = diag(Ag(x1),..., \g(æn)), 


on montre que l’opposé de la log-vraisemblance 8 + —L(Y,) est strictement 
convexe (si un des x; Æ 0, ce qui est en général le cas...). Cette fonction est de plus 
en général une fonction coercive”, ce qui nous garantit l’existence d’un B unique 
minimiseur de —L(Y, 3) sur R?. 

Comme dans le chapitre précédent, les techniques numériques classiques d’optimi- 
sation peuvent être appliquées ici afin de trouver l’unique maximum. Pour cela, il 
suffit d'utiliser les résultats de la section 11.2.2 (p. 259) avec l’équation du score 
(12.6). L’algorithme IRLS (algorithme 4 p. 260) est utilisé avec la matrice 


A(B) = V7L(Y, B) = -X'WsX 


par la fonction glm de R pour calculer l’estimateur du maximum de vraisemblance. 


12.3.3 Tests et intervalles de confiance 


Les principales propriétés de l'EMV découlent de la théorie du maximum de vrai- 
semblance. Sous des hypothèses similaires à celles du théorème 11.1, PEMV existe 
et est consistant. De plus, pour n assez grand, il est approximativement gaussien, 
sans biais et sa matrice de variance covariance est proche de l’inverse de la matrice 
d’information de Fisher donnée par 


T,,(8) = -E [V?L(Y,8)] = X'WsX. 
Plus précisément, la statistique 
(Ê — 8) TA (BB — B) 
converge en loi vers une loi du x? à p degrés de liberté. Si on désigne par ô? le j° 


terme de la diagonale de (X'W,X)~', on déduit que 
B 


Mews (12.7) 


“j 


converge vers la loi normale centrée réduite. On pourra déduire de ce résultat des 
intervalles de confiance ainsi que des procédures de test sur les paramètres. On 
rejettera par exemple l’hypothèse nulle du test 


Ho: 8; =0 contre Hı : 8; #0 


2. Par définition 6 ++ —L(Y, 8) si elle vérifie limy 3,400 —£(Y, 8) = +00 
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au niveau a €]0, 1[ si | B; /8;l dépasse le quantile d’ordre 1 — a/2 de la loi normale 
centrée réduite. 

Reprenons l’exemple de la malaria. Nous cherchons maintenant à expliquer le 
nombre de visites à l’hôpital par les variables Duree, Sexe et Prev. Les paramètres 
du modèle sont toujours estimés avec la fonction glm. 


> modP3 <- glm(N.malaria - Duree + Sexe + Prev, data = Malaria, 


+ family = poisson ) 
> summary (modP3) 
Call: 


glm(formula = N.malaria ~ Duree + Sexe + Prev, family=poisson, 
data = Malaria) 


Deviance Residuals: 
Min 1Q Median 3Q Max 
-4.0903 -0.9488 -0.3503 0.7025 5.0166 


Coefficients: 

Estimate Std. Error z value Pr(>|z|) 
(Intercept) 0.1623101 0.1803505 0.900 0.3681 
Duree 0.0015101 0.0000343 44.031 <2e-16 *** 
SexeM 0.0550890 0.0229690 2.398 0.0165 * 
PrevMoustiquaire 0.2432678 0.1774693 1.371 0.1704 
PrevRien 0.2255828 0.1781379 1.266 0.2054 
PrevSerpentin/Spray 0.2452247 0.1851801 1.324 0.1854 
Signif. codes: 0 ‘***? 0.001 ‘**’ 0.01 ‘x? 0.05 ‘.? 0.1 £7 1 


(Dispersion parameter for poisson family taken to be 1) 


Null deviance: 5710.4 on 1626 degrees of freedom 
Residual deviance: 3317.3 on 1621 degrees of freedom 
AIC: 8124.6 


Number of Fisher Scoring iterations: 5 


La dernière ligne indique le nombre d’itérations nécessaire à la convergence de 
Valgorithme de maximisation de la log-vraisemblance. Le tableau Coefficients 
renvoie des informations sur les paramètres du modèle. Ce dernier est composé 
d’une variable quantitative et de deux variables qualitatives qui prennent 2 et 4 
modalités et s’écrit 
log(Ag(z)) = Bo + B1Duree + Blu(Sexe) (12.8) 
+31 Moust (Prev) + Ga1rien(Prev) + B51serp(Prev). 


Comme pour les modèles linéaire et logistique, on remarquera que des contraintes 
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identifiantes sont utilisées pour les variables qualitatives (voir par exemple section 
11.1.3). Ici les coefficients pour les modalités F et Autre des variables Sexe et Prev 
sont imposés égaux a 0. Ce choix est fait par défaut par R car ce sont les premiéres 
modalités dans l’ordre alphabétique °. 
La première colonne de la partie Coefficients du résumé (colonne intitulée 
Estimate) nous donne les estimations des paramètres. Rappelons que le coeffi- 
cient constant (Intercept) est proposé par défaut. Le coefficient associé à Duree 
est estimé à 0.0015. Le coefficient pour le sexe M est estimé à 0.055089. Le fait 
de passer du sexe F au sexe M donne un accroissement à log(A(x)) de 0.055089, 
c’est-à-dire qu’en moyenne le fait d’être de sexe masculin augmente le nombre de 
visites de exp(0.055089) ~ 1.06. En termes d'interprétation nous pourrions donc 
proposer que les individus masculins sont plus faibles en termes de résistance à la 
malaria ou que les individus masculins sont, dans cette région du monde, l’objet 
de plus de soins que les féminins. 
La seconde colonne (Std. Error) renvoie les écarts-types 6; des estimateurs. La 
valeur 0.00003 pour le paramètre correspondant à la variable Duree signifie que 
la valeur estimée de 0.0015 est hautement significative comme on peut le voir 
grâce aux deux dernières colonnes du tableau : la colonne z value présente les 
valeurs des statistiques (l’estimateur divisé par son écart-type) de test tandis que 
la dernière colonne Pr(>|z|) renseigne les probabilités critiques. 
Sur cet exemple, pour un niveau a = 5% on acceptera la nullité des paramètres 
associés à la variable Prev (paramètre B3, 84 et B5 dans (12.8)). 
Concernant les moyens de prévention, le premier moyen de prévention (Autre) 
est imposé à 0. Les coefficients estimés sont donc interprétables comme l'écart à 
cette modalité. En termes d'interprétation ce n’est absolument pas confortable et 
il serait plus facile de considérer l'écart d’un moyen de prévention à aucun moyen 
de prévention. Il faut donc changer la contrainte identifiante en imposant que le 
coefficient associé à la modalité Rien soit égal à 0 : 

> Malaria$Prev <- relevel(Malaria$Prev, ref = "Rien") 

> modP3 <- glm(N.malaria ~ Duree + Sexe + Prev, data = Malaria, 

+ family = poisson ) 

> summary (modP3) 


Coefficients: 

Estimate Std. Error z value Pr(>|zl) 
(Intercept) 0.3878929 0.0389800 9.951 <2e-16 *** 
Duree 0.0015101 0.0000343 44.031 <2e-16 *** 
SexeM 0.0550890 0.0229690 2.398 0.0165 * 
PrevAutre -0.2255828 0.1781379 -1.266 0.2054 
PrevMoustiquaire 0.0176850 0.0255967 0.691 0.4896 
PrevSerpentin/Spray 0.0196420 0.0590690 0.333 0.7395 


Nous ne mettons ici que la partie Coefficients, le reste n’a pas changé. Bien 


3. Plus précisément, il s’agit du premier niveau des facteurs tel qu’il apparaît dans l’appel à 
la fonction levels ; voir aussi relevel pour changer. 
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évidemment les coefficients associés à SexeM et Duree n’ont pas changé. 

Ainsi, si nous voulons analyser l'effet d'utiliser comme moyen de prévention un 
spray, alors nous pouvons dire que ce moyen de prévention entraîne en moyenne 
exp(0.0245) = 1.02 fois plus de visites que ne rien faire. Cependant, l’écart-type est 
de 0.18 et le test accepte la nullité du paramètre associé au moyen de prévention 
Spray. De plus, l’utilisation de spray montre que la famille est sensibilisée au 
problème de la malaria (ou financièrement plus aisée) et cela peut contribuer aussi 
à augmenter le nombre de visites. 

Nous voyons sur les deux dernières sorties présentées que les tests de nullité des pa- 
ramètres ne sont pas les mêmes (les probabilités critiques ne sont pas identiques). 
En effet, en présence de variables qualitatives, ces tests dépendent de la contrainte 
identifiante et ne sont pas toujours pertinents. Il est souvent préférable de s’in- 
téresser à l’influence globale de la variable qualitative sur la variable à expliquer. 
Sur notre exemple, on peut par exemple se demander si le sexe ou le moyen de 
prévention a une influence sur le nombre de visites. Dire que la prévention n’a 
pas d'influence revient à dire que les coefficients du modèle associé à la variable 
Prev ont tous la même valeur. On peut traduire cela dans le modèle (12.8) par les 
coefficients 63, 84,85 sont nuls puisque la contrainte utilisée fixe le coefficient de 
la modalité Autre à 0. Ainsi dans ce cas, nous sommes amenés à tester 


Ho : B3 = Ba = b5 = 0 contre Hı : Jj € {3,4,5} : 8; £0. 


Il ne s’agit plus de tester la nullité d’un paramètre mais celle d’un sous-groupe 
de paramètres. Pour cela, plusieurs statistiques de test peuvent être utilisées. On 
peut par exemple utiliser celle du rapport de vraisemblance 


—2(Lno (Y, Bato) — L(Y, 8), 


où Lu, (Y, bu,) désigne la log-vraisemblance du modèle sous Ho, c’est-à-dire la 
log-vraisemblance du modèle sans la variable Prev. Cette statistique converge en 
loi vers une loi de x? à pı — po degrés de liberté avec po et pı les nombres de 
paramètres du modèle complet et du modèle sous Hg. Dans notre exemple po = 3 
et p1 = 5. Sous R on peut obtenir la statistique de test avec 


| > modP2 <- glm(N.malaria ~ Duree + Sexe, data = Malaria, 
family = poisson) 

> -2*(logLik (modP2)-logLik (modP3) ) 
log Lik.’ 2.448823 (df=3) | 


Pour un test au niveau a = 5%, cette valeur est à comparer avec le quantile d’ordre 
0.95 de la loi du x? à 3 degrés de liberté 


| > qchisq(0.95,d£=3) | 
[1] 7.814728 


La statistique de test étant inférieure au quantile, on conservera l’hypothèse nulle 
et on pourra donc conclure que le mode de prévention n’a pas d’effet sur le nombre 
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de visites. On peut bien entendu effectuer ce test directement à l’aide de la fonction 
anova : 


> anova(modP2, modP3, test = "LRT") 
Analysis of Deviance Table 


Model 1: N.malaria ~ Duree + Sexe 
Model 2: N.malaria ~ Duree + Sexe + Prev 
Resid. Df Resid. Dev Df Deviance Pr(>Chi) 


1 1624 3319.8 
| 2 1621 Solos à 2.4488 0.4846 
Remarque 


La fonction Anova du package car permet de tester l’effet de toutes les variables 
dans le modèle dans l’ordre spécifié à l’intérieur de la formule. Changer l’ordre 
changera les valeurs présentées et peut même impacter la signification des tests. 
Par exemple : 


> library(car) 
> Anova(modP3, test = "LR") 
Analysis of Deviance Table (Type II tests) 


Response: N.malaria 
LR Chisq Df Pr(>Chisq) 


Duree 2380.25 1 < 2e-16 *** 

Sexe Seis l 0.01645 * 

Prev 2.45 3 0.48461 

Signif. codes: 0 ‘*x%xx’ 0.001 ‘**’ 0.01 ‘x? 0.05 ‘.? 0.1 °? 1 


Nous avons ici les résultats des tests de rapport de vraisemblance pour les trois 
variables du modèle. On retrouve bien entendu le même résultat que précédem- 
ment pour Prev. Concernant le sexe, on pourra considérer, au niveau 5% qu’il a 
également un effet sur le nombre de visites ainsi que pour la variable Duree. 
Nous nous sommes restreints au test du rapport de vraisemblance, d’autres sta- 
tistiques peuvent être utilisées pour tester la nullité d’un sous-ensemble de para- 
mètres, comme la statistique de Wald. Cette statistique est définie de la même 
façon que pour le modèle logistique. Nous renvoyons le lecteur à la section 11.3.2 
pour la réalisation de ce test. 


Concernant les intervalles de confiance, on déduit de l’approximation de la loi de 
(12.7) par la loi N (0,1) que 


ICi-a(B;) = [8 = Ui-a/20j; By + U-a/20j 


est un intervalle de confiance (asymptotique) de niveau 1 — a pour 8j. On rappelle 
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que u1—a/2 désigne le quantile d’ordre 1 — a/2 de la loi W(0,1). On obtiendra ces 
intervalles avec la fonction confint.default : 


> round(confint.default(modP3) ,3) 
2.5 % ET: À 
(Intercept) 0.311 0.464 
Duree 0.001 0.002 
SexeM 0.010 0.100 
PrevAutre -0.575 0.124 
PrevMoustiquaire -0.032 0.068 
PrevSerpentin/Spray -0.096 0.135 


Comme pour le modèle logistique, la fonction confint permet d’obtenir également 
des intervalles de confiance : 


> round (confint (modP3) ,3) 
26% 97.5 À 

(Intercept) 0.311 0.464 
Duree 0.001 0.002 
SexeM 0.010 0.100 
PrevAutre -0.596 0.105 
PrevMoustiquaire -0.032 0.068 
PrevSerpentin/Spray -0.098 0.134 


Ces derniers sont calculés à partir de la vraisemblance (voir exercice 11.9 pour 
plus de détails). 


12.3.4 Choix de variables 


Tout comme pour les modèles linéaire et logistique, sélectionner les variables est 
souvent une étape importante pour construire un modèle de Poisson. En effet, 
lorsque le nombre de variables est grand, il est important de supprimer les va- 
riables non influentes pour augmenter la précision des estimateurs et pour mieux 
interpréter le modèle. Les techniques permettant de sélectionner les variables dans 
un modèle de Poisson sont standards. Elles consistent le plus souvent à construire 
des modèles basés sur des sous-ensembles de l’ensemble des variables et à les com- 
parer à l’aide de critères de choix de modèles de type AIC ou BIC défini dans 
l'équation (11.24). Lorsque le nombre de variables p est relativement petit (infé- 
rieur à 50), on peut utiliser des approches exhaustives qui consistent à construire 
tous les modèles possibles à partir de ces p variables (il y en a 2?~+) et à choisir 
celui qui optimise le critère choisi. 

Considérons le jeu de données Malaria complet, dans lequel on enlève les individus 
qui contiennent des données manquantes. 
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> Malaria <- read.table("poissonData.csv", sep=",", header=T) 
> Malariai <- na.omit (Malaria) 


Sur R, on peut utiliser le package bestglm pour effectuer une procédure de choix 
de variables exhaustives. 


> mod_sel <- bestglm(Malariai, family = poisson) 
> mod_sel$BestModels 


Sexe Age Altitude Prev Duree Criterion 
1 FALSE TRUE TRUE FALSE TRUE 7384.946 
2 FALSE FALSE TRUE FALSE TRUE 7387.814 
3 TRUE TRUE TRUE FALSE TRUE 7390.053 
4 TRUE FALSE TRUE FALSE TRUE 7393.119 


5 FALSE TRUE FALSE FALSE TRUE 7401.021 


Le critére utilisé par défaut est le BIC (derniére colonne). On obtient ici les 5 
meilleurs modèles au sens de ce critère. Le modèle sélectionné aura une valeur de 
BIC de 7385 et contiendra les variables Age Altitude et Duree. Pour ce critére, 
le mode de prévention n’apparait pas comme une variable pertinente. 

Cette procédure exhaustive nécessite l’ajustement de 227! modèles. Elle peut se 
révéler coûteuse en temps de calcul lorsque p est grand. Dans ce cas, on a souvent 
recours aux procédures pas à pas présentées dans la section 7.4.2. Sur R, on pourra 
utiliser la fonction step ou modifier l’argument method dans la fonction bestglm 
pour utiliser ces procédures. 


12.4 Exercices 


Exercice 12.1 (Questions de cours) 
1) Nous souhaitons effectuer une régression dont la variable à expliquer est une variable de 
comptage, on utilise la fonction glm en précisant 
A. family=binomial, 
B. en ne précisant rien, 
C. family=poisson. 
2) Lors d'une régression de poisson (hors modèle saturé ou constant), les estimateurs sont 
obtenus en utilisant un algorithme itératif : 
A. oui toujours, 
B. non jamais, 
C. seulement si les variables explicatives sont qualitatives. 
3) Un estimateur de la variance de B de 5 dans le cas de la régression de Poisson vaut : 
A. 6?(X'X)7!; 
B. (X'W3X) 1; 
C. (Wa) {. 
4) Pour estimer les paramètres d'une régression de poisson, on 
A. maximise la vraisemblance, 
B. maximise la déviance, 
C. 


minimise les moindres carrés. 
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5) Les espérances des effectifs (notés Az) du modèle « saturé » en chaque unique point du 
design Z (avec č: Æ čı pour t Æ l) sont estimées par 

A. par la moyenne a He Yillz,(xi) avec nt = Net La, (ti), 

B. par la somme un Yilz, (Ti) avec nt = D Lrs(di), 

C. par le logarithme népérien de la moyenne log mn ee Yilx, (ti) avec nt = Rue La, (xi), 

D. par le logarithme népérien de la somme log $0", ys Te, (ai) avec ni = DO", De, (x). 
6) Les modèles de régression de Poisson imposent 

A. que les y; sont iid et suivent une loi de Bernoulli, 

B. que les y; sont iid et suivent une loi de Poisson, 

C. que les y; sont iid et suivent une loi normale. 
7) Les modèles de régression de Poisson imposent 

A. qu'en chaque unique point du design la variance est constante (égale à o?), 

B. qu'en chaque unique point du design la variance vaut nep:(1 — pr), 

A. qu'en chaque unique point du design la variance vaut À. 
8) Les intervalles de confiances en régression de Poisson (de niveau 1 — a) pour les coor- 
données de 5 

A. sont approximativement de niveau 1 — a, 

B. sont précisément de niveau 1 — a. 


Exercice 12.2 
Calculer les fonctions de lien canonique pour le modèle linéaire gaussien, le modèle logistique 
et le modèle de Poisson. 


Exercice 12.3 

Soit X une variable aléatoire suivant une loi de Poisson P(A). 
1) Montrez que les moments factoriels d'ordre r d'une variable aléatoire suivant une loi de 
Poisson valent 


E[X(X —1)...(X-r+1)) = y. 
2) Déduire que l'espérance et la variance valent À. 


Exercice 12.4 (Stabilisation de la variance) 

Vérifier graphiquement que si X suit une loi de Poisson, alors Z = VX a comme variance en- 
viron 1/4 (on pourra prendre un échantillon de taille 1000000 et calculer sa variance empirique 
pour des valeurs de À variant entre 1 et 20. 


Exercice 12.5 (Stabilisation de la variance) 
Montrer que V(VX) & 3. 


Exercice 12.6 

Reprenez les données de la malaria. 
1) Représenter graphiquement les barres suivantes : en abscisse les nombres de visites et 
en ordonnée le nombre total de visites pour les femmes (ordonnée positive) ou pour les 
hommes (ordonnée négative). Vous devriez obtenir le graphique suivant 
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Fig. 12.4 — Représentation des données et effet du sexe 


avec le code 


tab <- lapply( split( Malaria$N.malaria, Malaria$Sexe ), table ) 
Tab <- matrix( 0,2, max( Malaria$N.malaria )+1 ) 

colnames(Tab) <- O:max( Malaria$N.malaria ) 

Tab[1, names(tab[[1]]) ] <- tab[[1]] 

Tab[2, names(tab[[2]]) ] <- tab[[2]] 

barplot( Tab, offset = -Tab[1,]) 


VVVNVV MV 


Commenter le code ci-dessus. 

2) Comparer la moyenne du nombre de visites pour cause de malaria à l'hôpital pour les 
hommes et pour les femmes. Pour des données de comptage, on considére souvent le rapport 
des moyennes ou de facon équivalente la différence des logarithmes des moyennes. 

3) Y a-t-il une différence entre le logarithme du nombre de visites à l'hôpital pour cause 
de malaria entre les filles et les garçons? Un code possible est 


| > mm <- sapply( split( Malaria$N.malaria, Malaria$Gender ) ,mean,na.rm=T) 
| > round( c( log( mm[1] ), diff( log( mm ) ) ), 5) 


4) Retrouver ce résultat en effectuant une régression de Poisson avec comme seule variable 
explicative la variable Sexe. 


Exercice 12.7 (Table de contingence et loi de Poisson) 
L'analyse de table de contingence qui compte le nombre d’occurrences entre 2 (ou plus) 
variables qualitatives est un cas spécifique de variables de comptage. Nous allons considérer 
l'analyse entre les variables Prev et Sexe des données de Malaria. L'objectif de cet exercice 
est de montrer qu'il est possible d'utiliser la régression de poisson pour analyser un tableau 
de contingence. 

1) Avec la fonction table(), donner le tableau de contingence. 

2) Effectuer un test du x” en utilisant chisq.test() 
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3) Créer un data-frame en mettant en colonne les effectifs de chaque cellule et les variables 
Prev et Sexe. Le résultat souhaité figure ci-dessous : 


Y Sexe Prev 
1 2 F Autre 
A 8 M Autre 
3 557 F Moustiquaire 
4 543 M Moustiquaire 
5 223 F Rien 
6 233 M Rien 
7 28 F Serpentin/Spray 
8 35 M Serpentin/Spray 


4) Ajuster une régression de Poisson avec interaction et sans coefficient constant 
> modi <- glm(Y ~ -1 + Sexe:Prev, data = don, family = poisson) 


— Y-a-t-il des contraintes identifiantes ? 
— Le modèle est-il saturé ? 
— Retrouvez les estimations des paramètres de mod1. 


5) Ajuster une régression de Poisson sans interaction 
> mod2 <- glm(Y ~ 1 + Sexe + Prev, data = don, family = poisson) 


— Y-a-t-il des contraintes identifiantes ? 

— Le modèle est-il saturé ? 

— Interprétez les estimations de mod2. 
6) Comparer les 2 modèles en utilisant l'AIC, quel modèle conservez-vous? Ce résultat 
est-il surprenant connaissant le résultat de la question 2? 


Exercice 12.8 (Table de contingence et probabilité) 
Considérons une table de contingence à 2 entrées et notons mij la probabilité d'être dans la 
cellule (4, j). Ainsi dans l'exemple de l'exercice 12.7, nous avons 


Sexe/Prévention | Autre | Moustiquaire | Rien | Serpentin/Spray || ligne 
F T11 T12 T13 T14 T1. 
M T21 T22 T23 T24 T2. 
colonne Ta T2 T3 T4 1 


Tableau 12.3 — Probabilités 


1) En utilisant la formule des probabilités totales, retrouvez que la probabilité d'être une 
3 4 

femme notée mı. vaut a Tij. 

2) Retrouvez de même les probabilités des marges (lignes et colonnes). 

3) Pouvez-vous écrire les contraintes associées aux lignes? aux colonnes ? 

4) Si les 2 variables sont indépendantes, écrivez mij en fonction de 7. et de x.;,. On décrit 


l'écart au modèle en notant 
Tij 
Tij = (Ti. T.j) 5 
Ni T.j 
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5) Le tableau de contingence reporte des effectifs par cellule, l'effectif total sera noté N. 
En multipliant l'équation précédente par N, en notant Aij = Nai; et en passant au log, 
montrez que 

log Aig = p + où + pj + is. 


Indiquez précisément les différents paramètres (par exemple a; = log 7;.). 

6) Retranscrivez les contraintes initiales associées aux lignes et colonnes en contrainte 
identifiantes. En remarquant que À;; est un effectif moyen, on retrouve la modélisation de 
Poisson vue à l'exercice 12.7 avec des contraintes spécifiques. 


Exercice 12.9 (Loi Multinomiale) 
La loi multinomiale permet de modéliser une variable qualitative à K modalités en modélisant 


les probabilités d'obtenir des effectifs n1,...,nx pour chaque modalité selon : 
K 
n! 7 
Pr(N = m,...,Nx = ng) = [] =. 
nı! P ng! 7 
=1 


Nous avons que 74 représente la probabilité d'obtenir la modalité k et donc D Tk = 1. De 
plus, X`, nx = n. La loi est classiquement notée M (n, T1, ..., TK). 

Montrer qu'une variable distribuée selon une loi Multinomiale appartient à la famille expo- 
nentielle et que la fonction de lien naturelle est la fonction log. 


Exercice 12.10 

Reprenons un exemple classique cité par Noël (2015) étudiant les troubles de conduites 
alimentaires chez les adolescentes. Les données sont présentées dans le tableau 12.4. La 
question est la suivante :« peut-on dire que la distribution des intentions est la même pour 
les deux groupes? ». 


Groupe/Intention | Maigrir Garder Grossir 
Afro-Américain ni = 47 ni2 = 28 | n13 = 24 
Européen N21 = 352 | nag = 152 | n23 = 31 


Tableau 12.4 — Désir de changer de poids chez les adolescentes 


La loi Multinomiale est définie à l'exercice 12.9. 
1) Si la variable Intention est la même dans chaque groupe alors les observations i € 
{1, 2} sont indépendantes 


2 
Pr(Nu = n11,..., N23 = n23) = [Pa = na, Ni2 = niz, Nis = nis) 


i=l 


et montrez que pour l'observation à on a 


Pr(Na = nia, Ni2 = niz, Nis = ni3) = ae ET [ea 
Nil Nil Ni3: *- 
j 


2) Proposez une autre modélisation multinomiale dans le cas où Intention diffère dans 
chaque Groupe. 
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3) Ecrire les log-vraisemblances des deux modéles sans oublier les contraintes sur les pa- 
ramètres. Réécrire les log-vraisemblances avec le changement de variable suivant pour les 
probabilités : 


EXP Nij Nij = ij si on retient un effet Groupe 
Du { Nij = uj sion ne retient pas d'effet Groupe 

4) Ecrire une modélisation de Poisson sur les effectifs n;; en incluant un coefficient constant 
Lt, un effet du Groupe a;, un effet de l'intention B; et une interaction y;;. Remarquer que 
ce modèle est sur-paramétré et qu'il est équivalent à celui incluant un coefficient constant 
u, un effet Groupe a; et une interaction y;;. 

Ecrire la log-vraisemblance de cette dernière modélisation. 

5) En posant 7; = > exp((u + ai) + 5) trouver que la log-vraisemblance de ce modèle 


s'écrit 
Lin, T, y) =X (nilogri — ri) + SV ni — ni log | expr) 
tj j 


a 


Remarquons que la log-vraisemblance contient des termes en yi; d'un côté et des termes 
en 7; de l’autre. La maximisation pour les termes en 7; ne dépend donc que des deux 
derniers termes et remarquer qu'ils sont égaux à la log-vraisemblance de la modélisation 
multinomiale de la variable Intention avec effet Groupe. 

6) Ecrire une modélisation de Poisson sur les effectifs n;; en incluant un coefficient constant 
u, un effet Groupe a; et un effet Intention 8j. On choisira la contrainte identifiante 
ey B; = 0 pour plus de simplicité. Ecrire ensuite la log-vraisemblance. 


7) En posant 7 = a exp((y + @i) + Bi) montrer que cette log-vraisemblance s'écrit à 
une constante près 


L(Y,7, B) = DC log Ti — Ti) + 5 5 nig Bj — Ni log(S> exp(B;)) 


et en déduire que la maximisation de la vraisemblance dans ce modèle de Poisson revient à 
celle de la modélisation multinomiale de la variable Intention sans effet Groupe. 


Chapitre 13 


Régularisation de la vrai- 
semblance 


Les procédures de sélection de variables présentées dans la partie III et dans la 
section 11.5 sont particulièrement utiles lorsque le nombre de variables explicatives 
est "grand". Elles permettent de diminuer le nombre de paramètres à estimer et 
donc de réduire la variance des estimateurs. Une alternative à cette stratégie est 
d'utiliser des techniques de régularisation. Ces techniques permettent en outre 
d'estimer les paramètres des GLM lorsque le nombre de variables p est plus grand 
que le nombre d’observations n. Ces approches ont été étudiées en détails dans le 
chapitre 8 pour le modèle de régression linéaire. Nous proposons ici de les étendre 
aux modèles GLM. Les idées sont identiques, nous allons contraindre l’espace des 
paramètres : la vraisemblance n’est plus maximisée sur R? mais sur une boule de 
R? centrée en 0. 


13.1 Régressions ridge, lasso et elastic-net 


On rappelle qu’un modèle GLM est défini par 3 composantes : une aléatoire, une 
déterministe et une de lien (voir définition 12.1). Jusqu'à présent nous écrivions la 
composante déterministe comme une combinaison linéaire des p variables explica- 
tives et supposions que la première variable était égale à 1 si on souhaitait prendre 
en compte la constante dans le modèle. La constante jouant un rôle particulier 
dans les méthodes régularisées, il est important de la spécifier explicitement dans 
le modèle. C’est pourquoi, comme dans le chapitre 8, on utilisera la notation u 
pour représenter la constante dans le modèle. On écrira alors le modèle logistique 
permettant d'expliquer une variable binaire Y par p variables explicatives 


logit(pe(x)) = u + Biti +... + Pop. 


On considère un modèle GLM de log-vraisemblance L(Y, p, 8). Nous avons vu dans 
les chapitres précédents que les approches standards d’estimation des paramètres 
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consistaient à chercher 8 dans R? qui maximise cette log-vraisemblance (ou qui 
minimise son opposé). Les approches régularisées proposent de restreindre l’espace 
des paramètres. Par exemple, la régression ridge pose une contrainte sur la norme 
2 des paramètres. Les estimateurs sont ainsi définis en minimisant l’opposé de la 
log-vraisemblance sous la contrainte que la norme 2 de ( ne dépasse pas une valeur 
fixée. On cherche donc les valeurs de y et de 5 qui minimisent 


p 
—L(Y,,8) sous la contrainte 5 B; < 6. (13.1) 
j=1 
Le réel positif 6 est ici un paramètre à calibrer. En effet, plus 6 est petit, plus la 
contrainte est forte. Si on considère le cas extrême où 6 = 0, alors l’estimateur 
ridge est le vecteur nul. A l'inverse, la contrainte s’atténue lorsque ô augmente : 
l’estimateur ridge se rapproche de l’estimateur du maximum de vraisemblance pour 
des valeurs élevées de 6. En utilisant le Lagrangien, on a une écriture équivalente 
du problème d’optimisation ! 


P 
Êriage(àÀ) = argmin |-L(Y, u, B) +A) 67 (13.2) 
HER, GER? 


avec À > 0. L’équivalence est à prendre dans le sens où pour tout 6 > 0 il existe 
un unique À > 0 (et réciproquement) tel que les solutions des problèmes d’optimi- 
sation (13.1) et (13.2) coincident. On remarque que la constante u n’apparait pas 
dans la contrainte dans (13.1) ou dans la pénalité dans (13.2). L’approche lasso se 
base sur des contraintes de norme 1. On cherche p et B qui minimisent 


p 
— L(Y, u, 8) sous la contrainte 5 |8;| <6 (13.3) 
j=l 


avec ô > 0. Là encore, on a une écriture équivalente en passant au Lagrangien 


p 
Biasso(A) = argmin |-L(Y, u, 8) +A X 15; (13.4) 


HER,BER? j=1 


avec À > 0. Le paramètre À contrôle le poids donné à la pénalité : lorsque À = 0 
on retrouve les estimateurs du maximum de vraisemblance alors qu’on obtient un 
estimateur égal à 0 lorsque À tend vers +00. On obtiendra donc des estimateurs 
différents pour chaque valeur de À. 

Les méthodes ridge et lasso estiment les paramètres du modèle linéaire généralisé 
en maximisant la log-vraisemblance pénalisée par la norme 2 (ridge) et par la norme 
1 (lasso). L’approche elastic-net (Zou & Hastie (2005)) propose de combiner ces 
deux pénalités. La pénalité elastic-net s’écrit donc 


Pp 
AS“ ((1 — a) BF + al8;l), (13.5) 
j=l 


1. Par abus de notation Briage (A) correspond fridge (A) et Bridge (A) 
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où a € [0,1] et A> 0. 


P 


Betast(A) = argmin -c (Y, u, 8) + px (1-a) )BF + alB;|)]- (13.6) 


HER, BER? 


Le paramètre À joue un rôle similaire à celui évoqué pour les méthodes ridge et 
lasso, il peut être sélectionné par les procédures présentées dans la section 13.2. 
Le paramètre a représente le compromis entre les pénalités ridge et lasso : pour 
a = 0, on retrouve l’estimateur ridge et on obtient l’estimateur lasso pour a = 1. 
La méthode elastic-net est plus flexible que les approches ridge et lasso mais il 
faut sélectionner un paramètre supplémentaire : le paramètre a. 

Les solutions des problèmes d'optimisation (13.2) et (13.4) s’obtiennent en uti- 
lisant des algorithmes numériques de programmation non linéaires (voir Hastie 
et al. (2001)). Le package glmnet utilise par exemple une méthode de descente 
par coordonnées pour calculer les estimateurs ridge, lasso et elastic-net de façon 
efficace. Nous le présentons à travers l’exemple des données SAheart : 


ne 
| > library (bestglm) 
| > data(SAheart) 


Il n’est pas possible d'utiliser de formule dans la fonction glmnet pour spécifier 
la variable à expliquer et les variables explicatives. Il faut renseigner les variables 
explicatives dans une matrice. On utilise souvent la fonction model.matrix pour 
obtenir cette matrice : 


| > SAheart.X <- model.matrix(chd ~ ., data = SAheart)[,-1] 
| > SAheart.Y <- SAheart$chd 


Si, parmi les variables explicatives, il y a des variables qualitatives, la fonction mo- 
del.matrix fait un codage disjonctif des variables qualitatives. Ce codage remplace 
donc une variable admettant J modalités en I variables binaires. Pour chaque va- 
riable, la somme des variables issues du codage donne le vecteur constant dont 
toutes les valeurs valent 1. La fonction model.matrix supprime la colonne as- 
sociée au codage de la première modalité afin qu’il n’y ait pas de problème de 
colinéarité. 

Par défaut, la fonction glmnet choisit une grille de valeurs possibles pour À et 
calcule les estimateurs pour chaque valeur de la grille. Le choix de la pénalité 
s’effectue à travers l’argument alpha de glmnet. On pourra par exemple calculer 
les estimateurs ridge, lasso et elastic-net avec les ordres suivants : 


| > library(glmnet) 

‘ > ridge <- glmnet(SAheart.X, SAheart.Y,family="binomial" ,alpha=0) 

| > lasso <- glmnet(SAheart.X, SAheart.Y,family="binomial",alpha=1) 
> elast <- glmet (SAheart.X, SAheart .Y,family="binomial",alpha=.5) 
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On représente souvent sur un graphique l’évolution des coefficients du modèle en 
fonction de À ou de la norme 1 de B(X). Un tel graphe est appelé chemin de 
régularisation ridge ou lasso ou elastic-net. On peut par exemple visualiser les 
chemins de régularisation ridge et lasso à l’aide des commandes suivantes (voir 
figure 13.1). 


| > plot(ridge, ylim=c(-0.1,0.2), main="Ridge") 

> plot(ridge, ylim=c(-0.1,0.2), main="Ridge", xvar="lambda") 
| > plot(lasso, ylim=c(-0.1,0.2), main="Lasso") 
| > plot(lasso, ylim=c(-0.1,0.2), main="Lasso", xvar="lambda") 

> plot(elast, ylim=c(-0.1,0.2), main="Elastic-net") 

> plot(elast, ylim=c(-0.1,0.2), main="Elastic-net", xvar="lambda") 
Les graphes de gauche représentent les valeurs des coefficients en fonction de la 
norme 1 du vecteur de coefficients tandis que ceux de droite montrent ces mêmes 
coefficients en fonction du logarithme de À. Il y a bien entendu une « symétrie » 
entre ces deux représentations : une faible norme pour les paramètres correspond 
à une forte valeur de À. On remarque que le lasso a tendance à mettre à 0 un 
certain nombre d’estimateurs. 
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Fig. 13.1 — Chemins de régularisation ridge (haut), lasso (milieu) et elastic-net 
(bas) en fonction de ||8(A)||ı (gauche) et log(A) (droite). 
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En effet, tous les coefficients sont à 0 lorsque À est grand, ils « quittent 0 » les uns 
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après les autres au fur et à mesure que À diminue. Cette approche permet donc 
de faire de la sélection de variables puisque pour une valeur de À fixée, un certain 
nombre d’estimateurs seront égaux a 0. Les valeurs affichées en haut des graphes 
de la figure 13.1 indiquent le nombre de coefficients non nuls. 


Remarque 

Les variables sont généralement centrées réduites afin que la procédure ne dé- 
pende pas de l’échelle des valeurs prises par les variables. Il est possible de ne pas 
les standardiser en utilisant argument standardize = FALSE dans la fonction 
glmnet. Les valeurs de coefficients représentées sur la figure 13.1 sont les valeurs 
(re)calculées dans l’échelle des variables initiales. Ces valeurs se déduisent des va- 
leurs obtenues sur les données centrées-réduites. On pourra se référer à la section 
8.2 et à l’exercice 13.2 pour plus de détails. 


13.2 Choix du paramètre de régularisation À 
Les approches ridge, lasso et elastic-net reviennent à minimiser 
— L(Y, u, 8) + AJ(8) (13.7) 


ou encore 
—£L(Y,u,B) sous la contrainte J(B) < ô 


où J(B) désigne la norme 2 pour la régression ridge, la norme 1 pour la régression 
lasso ou une combinaison des 2 pour elastic-net. Le choix du paramètre À (ou 6) 
est crucial pour la performance de la procédure. Il va réguler le compromis biais- 
variance des estimateurs. Lorsque À est grand, on augmente le poids de la pénalité 
dans le critère à optimiser. On va donc obtenir des estimateurs plus contraints 
avec moins de variance mais un biais qui risque d’être élevé (et réciproquement 
lorsque À est petit). Il convient donc de trouver des procédures qui permettent de 
choisir ce paramètre de façon efficace. 
Les méthodes classiques permettant de choisir le paramètre de régularisation À 
consistent à : 

1. donner un critère de performance ; 

2. calculer le critère pour un ensemble de valeurs de À; 

3. choisir la valeur de À qui optimise l’estimation du critère. 


Ces méthodes sont identiques à celles proposées au début de chapitre 10. Le critère 
se calcule par des méthodes de type validation croisée. Le choix du critère de 
performance dépend bien entendu du GLM considéré. Ce critère est le plus souvent 
basé sur une fonction de perte qui mesure l'erreur entre une prévision et une 
observation. On donne ci-dessous les fonctions de perte classiques pour les modèles 
linéaire, logistique et de Poisson. 
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Modèle linéaire. 
La perte quadratique moyenne L(y, m(x)) = (y — m(a))? où 


m(x) = u + bızı +... + Bptp = 1'8. 
Le choix de À pour ce modèle a été présenté en détail dans la section 8.3.4. 


Modèle de Poisson. 
La déviance de la loi de Poisson 


L(y, As(x)) = 2(ylog(Ag(x)) — As(x)) 
où 
log(s(x)) = pe + bızı + + Pptp = 2'6. 


On remarquera que la fonction Àg(x) représente l’espérance de la loi de Poisson et 
n’a rien à voir avec le paramètre de régularisation À > 0 des méthodes pénalisées. 


Modèle logistique. 
On rappelle que ce modèle est défini par 


logit(ps(x)) = u + Bit, +... + ptp = 2'B. 


On propose 3 critères qui sont implémentés dans la fonction cv.glmnet. Les cri- 
tères erreur de classification et courbe ROC et aire sous la courbe (AUC) sont 
présentés en détail dans le chapitre suivant. 

— La déviance binomiale 


L(y, pa(x)) = —2(y log(pa(x)) + (1 — y) log(1 — pa(x))). (13.8) 


C’est argument par défaut de la fonction. 
— L'erreur de classification L(y, g(x)) = ga) zy Où 


_ f 1 sips(x) > 0.5 
9p(2) = { 0 sinon. 


C’est argument class du paramètre type.measure 

— L’aire sous la courbe ROC (AUC, voir définition (14.1)) de la fonction de 
score S(x) = ps(x). Pour ce critère la fonction de perte se définit à partir de 
deux observations (x,y) et (Z,%), une dans le groupe 1 (y = 1), l’autre dans le 
groupe 0 (ÿ = 0) par (voir exercice 14.7) 


L(y = 1,9 = 0), (Sa(x), Sa(%))) = 15, (0) >86(z): 


C’est argument AUC du paramètre type.measure 
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Contrairement aux autres, ce critère est à maximiser mais, avec un léger abus de 
notation, nous conservons la terminologie fonction de perte et la notation £. 

Une fois la fonction de perte choisie, on choisit une grille qui contient différentes 
valeurs du paramètre de régularisation À. On calcule ensuite, pour chaque valeur 
dans la grille, le critère de performance en utilisant des techniques d’apprentis- 
sage/validation ou validation croisée présentées dans les algorithmes 2 et 3 page 
238. On choisira la valeur de qui optimise le critére choisi. 

La fonction cv.glmnet du package glmnet utilise la validation croisée 10 blocs 
pour sélectionner le paramètre de régularisation. Le choix de la fonction de perte 
(et donc du critère) s’effectue à l’aide de l'option type.measure. On pourra par 
exemple choisir À avec les critères de déviance, d’erreur de classification et d’ AUC 
pour des régressions logistique ridge, lasso et elastic-net (avec a = 0.5) avec : 


> set.seed(2398) 
> mli.ridge <- cv.glmnet (SAheart .X,SAheart.Y,family="binomial", 


alpha=0) 

> mi.lasso <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=1) 

> mi.elast <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=.5) 


> m2.ridge <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=0, type.measure="class") 

> m2.lasso <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=1,type.measure="class") 

> m2.elast <- cv.glmnet (SAheart.X,SAheart.Y,family="binomial", 
alpha=.5,type.measure="class") 

> m3.ridge <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=0, type.measure="auc") 

> m3.lasso <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=1,type.measure="auc") 

> m3.elast <- cv.glmnet (SAheart.X,SAheart .Y,family="binomial", 
alpha=.5,type.measure="auc" 


La fonction retourne, pour chaque valeur de À testée : 

— une erreur calculée par validation croisée (cvm) ainsi qu’une estimation de son 
écart-type (cvsd). On peut en déduire un intervalle de confiance (cvlo et cvup) 
associé a cette erreur ; 

— le nombre de coefficients non nuls (nzero). 
La valeur de À qui minimise l’erreur (lambda.min) est également bien entendu 
proposée. La fonction renvoie de plus une autre valeur lambda. 1se qui correspond 
à la plus grande valeur de À pour laquelle l’erreur se situe à plus un écart type 
de l’erreur en lambda.min. En pratique, cela signifie que l'utilisateur peut choisir 
lambda.min ou lambda.1se. Si on privilégie la parcimonie du modèle (lorsqu'on 
fait du lasso par exemple), on choisira lambda.1se. On obtient ces deux valeurs 
de À avec : 


316 Régression avec R 


> mi.ridge$lambda.min 
[1] 0.01774595 
> m1i.ridge$lambda. ise 
[1] 0.2892148 


Ma ce : ae š a 
Les différentes erreurs en fonction de log(A) sont dessinées ci dessous (figure 8.6) 
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Fig. 13.2 — Déviance (haut), erreur de classification (milieu) et AUC (bas) pour 
les estimateurs ridge (gauche) et lasso (droite). 


et obtenues avec les commandes suivantes : 


© 


> plot(mi.ridge,main="Ridge") 
> plot(mi.lasso,main="Lasso") 
> plot(mi.elast,main="Elastic-net") 
> plot(m2.ridge,main="Ridge") 
> plot(m2.lasso,main="Lasso") 
> plot(m2.elast,main="Elastic-net") 
> plot(m3.ridge,main="Ridge") 
> plot(m3.lasso,main="Lasso") 
> plot (m3.elast ,main="Elastic-net") 


remarque la présence de deux lignes verticales sur chaque graphe. Celle de 
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gauche correspond à la valeur lambda.min, celle de droite à lambda. 1se. On peut 
utiliser les sorties de cv.glmnet pour prédire. En plus de faire la validation croisée, 
cette fonction réajuste le modèle sur toutes les données pour prédire de nouveaux 
individus. On obtiendra par exemple les prévisions des probabilités de l’évène- 
ment {chd=1} pour les 15° et 50° individus du jeu de données avec les valeurs 
lambda.min et lambda.ise en appliquant la fonction predict à l’objet obtenu 
avec cv.glmnet : 


> predict (m1.ridge ,newx=SAheart .X[c(15,50),], 
+ s="lambda.min", type="response" ) 
1 
15 0.4896072 
50 0.1326737 
> predict (m1l.ridge ,newx=SAheart .X[c(15,50),], 
+ s="lambda.1se",type="response") 
1 
15 0.3893436 
50 0.2479779 


13.3 Group-lasso 


Certaines applications nécessitent un traitement des variables explicatives par 
groupes. C’est par exemple le cas lorsqu’on dispose de variables explicatives qua- 
litatives dans le modèle logistique. En présence de groupes de variables, il est sou- 
vent préférable d’annuler (ou pas) simultanément tous les coefficients d’un même 
groupe. Considérons par exemple le cas où on dispose de 3 variables explicatives 
Xı, X2, X3. Xı et Xə sont qualitatives et prennent respectivement pour valeurs 
A, B,C et D,E, F,G, X3 est quantitative. La cible Y prend pour valeurs 0 ou 1. 
Le modèle logistique s’écrit 


logit pa(x) =u + p114 (z1) + B21B(21) + s1c(x1) 
+ b4lp(z2) + PBs1e(z2) + Belr(£2) + Brla(x2) + Bgr3. (13.9) 


muni des contraintes 6; = 64, = 0. L’approche lasso appliquée à cet exemple 
n’est pas forcément satisfaisante : elle risque d’annuler certains coefficients 3; sans 
prendre en compte le fait que les variables X, et Xə sont représentées par les 
groupes de coefficients (82, 63) et (85, Be, Br). Le group-lasso permet de pallier ce 
probleme en traitant les variables par groupes. 

Considérons donc le cas où les p variables explicatives X4, ..., Xp sont regroupées 
en L groupes X:,...,X, de cardinaux p1,...,p tels que pı +...+pr = p. Sans 
perte de généralité, nous supposerons que les variables sont ordonnées en fonction 
des groupes, c’est-à-dire X1 = {X1,...,X,,},.. On note Be, =1,...,L le vecteur 
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des coefficients associé au groupe X4. Le modèle logistique s’écrit donc 


logit ps(x) =u + bızı +... + Bp£p 


HT Pix ass T Bixe 


Les estimateurs group-lasso s’obtiennent en minimisant le critère 
group 


L 
-L(Y, m, B) + XC VpallBelle- 
ei 


Seule la pénalité change par rapport à la méthode lasso, elle s’écrit comme la 
somme des normes des groupes de coefficients pondérée par la taille des groupes. 
Cette pénalité est proche de la pénalité lasso. Le lasso s’écrit comme une combinai- 
son linéaire des valeurs absolues de paramètres tandis que le group-lasso utilise une 
combinaison linéaire de normes de paramètres. Ainsi les solutions du problème ci- 
dessus auront tendance à vérifier || G¢||2 = 0 pour certains groupes et donc à mettre 
à 0 tous les coefficients de ces groupes. Pour finir, remarquons que le coefficient \/pe 
dans la pénalité group-lasso permet de prendre en compte la taille des groupes : 
la pénalité est plus importante pour les grands groupes. 

Exemple 13.1 

On considère le modèle (13.9) pour le jeu de données suivant : 


X1 <- c(rep("A",60), rep("B",90), rep("C",50)) 

X2 <- c(rep("D",40), rep("E",60), rep("F",55), rep("G",45)) 
set.seed(23) 

X3 <- runif (200) 

Y <- 2*round(runif(200)) - 1 

donnees <- data.frame(X1, X2, X3, Y) 


VVVVV MV 


On compare les procédures lasso et group-lasso en regroupant les coefficients selon 


By = (82,83), Bo = (Bs, Bo, Br) et Bs = Bs. Le package gglasso permet de faire du 
group-lasso. 


> D <- model.matrix(Y~.,data=donnees) [,-1] 

> lasso <- glmnet(D,Y, alpha=1, lambda=exp(seq(-3,-5,length=100) )) 

> groupe <= GGl, 1, 2, 2 2, 8) 

> library (gglasso) 

> Y1 <- 2*Y-1 

> g.lasso <- gglasso(D, Y1, group=groupe, loss="logit", 
lambda=exp(seq(-4, -5.5, length=100))) 


On obtient les chemins de régularisation lasso et group-lasso avec les commandes 
suivantes (voir figure 13.3). 


> plot (lasso, xvar="lambda",1lwd=2,main="Lasso") 
> plot (g.lasso,main="Group-lasso") 
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Fig. 13.3 — Chemins de régularisation lasso (gauche) et group-lasso (droite). 


On voit clairement que, lorsque À augmente, les coefficients s’annulent de façon 
séquentielle les uns après les autres pour l’approche lasso tandis qu’ils s’annulent 
par groupes pour le group-lasso : d’abord les 2 coefficients associés à X1, puis le 
coefficient associé à X3 et enfin les 3 associés à Xo. 


Comme pour les méthodes ridge et lasso, il est important de bien sélectionner le 
paramètre de régularisation À pour le group-lasso. La méthode est identique, on 
calcule une erreur par validation croisée pour une grille de valeurs de À et on choisit 
la valeur qui minime l’erreur. On pourra utiliser la fonction cv.gglasso de gglasso. 


13.4 Exercices 


Exercice 13.1 (Questions de cours) 
1) À > 0, les estimateurs ridge s’obtiennent en pénalisant l'opposé de la vraisemblance par 


A. À) 5 ls GA E ATP, lgl) 
B. ATI, VB D. ADP, loa(f). FAS By 


2) À > 0, les estimateurs lasso s’obtiennent en pénalisant l'opposé de la vraisemblance par 


A. À) lbh Cod b. E. AX? log(|6;]), 
B. a, / Bi: D. AX? log(87), F. rT 6; 


3) Parmi les affirmations suivantes, lesquelles sont vraies ? 

A. Les méthodes régularisées permettent de réduire la variance des estimateurs du MV, 

B. Les méthodes régularisées permettent de réduire le biais des estimateurs du MV, 

C. On utilise généralement les méthodes ridge/lasso lorsque le nombre de variables expli- 

catives p est grand, 

D. Les estimateurs ridge/lasso sont toujours plus performants que les estimateurs du MV. 
4) On considère les estimateurs lasso définis par la pénalité proposée à la question précé- 
dente. Parmi les affirmations suivantes, lesquelles sont vraies ? 

A. Les estimateurs seront proches de 0 pour de très petites valeurs de À, 

B. Les estimateurs seront proches des estimateurs du MV pour de très grandes de À, 

C. Les estimateurs seront proches de 0 pour de très grandes valeurs de A, 
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D. Les estimateurs seront proches des estimateurs du MV pour de trés petites de X, 
E. Il faut toujours choisir À le plus grand possible, 
F. Il faut toujours choisir À le plus petit possible. 


Exercice 13.2 (Lasso sur données centrées réduites) 
On considère le modèle lasso obtenu sur les données SAheart à l'aide des commandes 


library(bestglm) ,data(SAheart) 

SAheart.X <- model.matrix(chd-.,data=SAheart)[,-1] 

SAheart.Y <- SAheart$chd 

mod.lasso <- glmnet(SAheart.X,SAheart.Y,family="binomial",alpha=1) 


VVvVV MV 


L'objet mod.lasso contient (entre autres) les valeurs des estimateurs lasso calculées pour 
chaque valeur de À contenue dans le vecteur suivant 


> lam.lasso <- mod.lasso$lambda 


1) A l'aide de la fonction coef retrouver les estimateurs des paramètres du modèle corres- 
pondant à la 50° valeur du vecteur lam.lasso. 

2) Centrer réduire la matrice SAheart.X et calculer les estimateurs lasso sur les données 
centrées-réduites. 

3) Retrouver les valeurs obtenues question 1) à partir des estimateurs calculées question 2. 


Exercice 13.3 (Comparaison de méthodes et courbes ROC) 
Le fichier logit_ridge_lasso.csv contient n = 500 observations de 100 variables quantita- 
tives X1,..., X100 et d'une variable binaire Y. Le problème est d'expliquer Y par X1,..., X100. 
1) Séparer les données en un échantillon d'apprentissage de taille 200 et un échantillon test 
de taille 300. 
2) A partir des donnés d'apprentissage uniquement, construire sur R : 
a) le modèle logistique complet (celui avec les 100 variables explicatives), 
b) un modèle logistique utilisant une procédure de descendante (fonction step), 
c) un modèle logistique lasso et ridge utilisant la déviance pour sélectionner A, 
d) un modèle logistique lasso et ridge utilisant l'AUC pour sélectionner À. 
3) Représenter les courbes ROC des 6 modèles construits calculées sur l'échantillon test. 
4) Calculer et comparer les AUC de ces 6 modèles. 


Exercice 13.4 (Surapprentissage) 
1) Pour les 6 modèles construits dans l'exercice précédent, estimer les probabilités de l'évè- 
nement {Y = 1} pour les individus de l'échantillon d'apprentissage. 
2) En déduire une règle de prévision. Pour la règle choisie, comparer les labels prédits par 
les 6 modèles aux labels observés (toujours pour l'échantillon d'apprentissage). 
3) Reprendre les deux questions précédentes sur les individus de l'échantillon test. Inter- 
préter. 


Chapitre 14 


Comparaison des différentes 
méthodes en classification 
supervisée, études de cas réel 


Dans le chapitre 10, nous avons comparé différentes méthodes de régression en ana- 
lysant les erreurs de prévisions obtenues par validation croisée. Ici, nous souhaitons 
faire de méme avec des méthodes de classification. La variable Y a prédire n’est 
plus une variable quantitative mais qualitative 4 deux modalités, ce qui va induire 
quelques différences, tant au niveau de la prévision que des critères de qualité de 
celle-ci. Commençons par présenter la prévision en classification supervisée. 


14.1 Prévision en classification supervisée 


Considérons (X,Y) un couple aléatoire à valeurs dans R? x {0,1}. Le problème 
consiste à expliquer, ou à prévoir, le label Y par X. Il faut donc choisir une règle 
de classification ou de prévision notée g : 


g: R? — {0,1} 
x> g(x) 


qui à un individu dont les variables valent x € IR? associe son label g(x) € {0,1}. 
Une manière naturelle d’obtenir une règle est d’analyser la probabilité ps(x) = 
Prg(Y = 1|X = x). Plus cette probabilité est élevée, plus il semble évident de 
prédire le groupe 1. Le passage de cette probabilité à la règle de prévision s’effectue 
en choisissant un seuil s € R : si la probabilité est plus petite que s, on décidera 
que le label vaut 0 et si la probabilité estimée est plus grande que s, on décidera 
que le label vaut 1 : 
_f 1 sips(x)>s 
gs(z) = { 0 sinon. 
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Bien entendu le seuil s est inconnu et en pratique il doit être choisi par l'utilisateur. 
Un choix classique consiste à prendre s = 0.5. Bien que ce choix possède certaines 
justifications théoriques (exercice 14.2, p. 351), rien ne dit qu’il soit optimal et on 
évoquera dans la suite différentes maniéres de le sélectionner (voir section 14.4). 
Outre le problème du choix du seuil, la probabilité pg(x) est inconnue et on doit 
Vestimer à partir d’un échantillon (X:,Y1),...,(Xn, Yn) de même loi que (X,Y). 
Nous avons fait cela dans les chapitres précédents pour le modèle logistique avec 
les estimations par maximum de vraisemblance, ridge, lasso... Une fois l’estimateur 
pg(x) obtenu, nous déduirons l’estimateur gs de gs en remplaçant pg (x) par ps(x). 
Nous remarquons ainsi que la classification binaire fait intervenir deux quantités 
fortement liées : la règle de prévision (estimée) ÿ.(x) et la probabilité (estimée) 
pg(x). La probabilité p;(x) donne plus d’information que le label prédit. Ainsi pour 
un seuil choisi à s = 0.5, on prévoit le même label g.(x) = 1 pour pa(x) = 0.501 
ou pg(x) = 0.999. Plus la probabilité est forte (ou faible), plus on sera confiant 
dans le label associé. La probabilité permet également d’ordonner les valeurs : du 
plus probablement 0 vers le plus probablement 1 en passant par le milieu plus 
incertain. Cet ordre, impossible à obtenir avec seulement les labels, est à la base 
même du concept de scoring. 
Construire un score revient simplement à trouver une procédure qui permette de 
donner une note à des individus qui soit en lien avec Y dans le sens où : 

— une note élevée signifie que l'individu a de grandes chances (ou une grande 

probabilité) d’étre dans le groupe 1; 

— une note faible signifie que l’individu a de grandes chances (ou une grande 

probabilité) d’étre dans le groupe 0. 
Mathématiquement, un score est donc simplement une fonction S : IR? > R 
qui, à un individu x € R?, associe la note S(x) € R. Dans notre contexte, une 
façon naturelle de noter un individu est de considérer la probabilité qu’il soit 
dans le groupe 1, c’est-à-dire de considérer S(x) = pg(x) (ou plus exactement son 
estimation (x£) = p g(x)). C’est ce score que nous considérerons dans ce chapitre. 


Remarque : la valeur de la note de score S(x) n’est généralement pas importante 
en elle-même. C’est l’ordre dans lequel un score va classer des individus qui compte. 
Ainsi, on dira que si  : R > Rest une fonction bijective croissante, alors les scores 
Set ġo S sont équivalents. 


Pour résumer, la prévision en classification binaire s'effectue à travers deux quan- 
tités : la probabilité (ou le score) et la règle. Et donc si l’on doit comparer plusieurs 
algorithmes de prévision, par exemple régression logistique, ridge, lasso, il est pos- 
sible de les comparer via les probabilités (ou scores) ou via les règles associées 
(à condition d’avoir choisi un seuil s). Ces comparaisons s’effectueront à l’aide de 
critères de performance spécifiques. Pour un score, on évaluera sa performance à 
travers sa capacité à bien ordonner des individus, ce qui revient à mesurer si les 
individus du groupe 0 sont bien plus faiblement notés que ceux du groupe 1. Pour 
une règle de classification, on cherchera à évaluer si la règle prédit bien de façon 
globale, ou si elle est capable de bien identifier les positifs (groupe 1) ou négatifs 
(groupe 0). Nous présentons ces critères dans les parties suivantes. 
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14.2 Performance d’une règle 


En classification binaire, nous avons un modèle théorique où E(Y|X = x) = p(x). 
La règle associée est définie par g.(x) = lp(x)>s et elle permet de déduire le label 
de Y en fonction des valeurs des variables explicatives x et du seuil s. Y prend deux 
valeurs possibles, 0 ou 1, et la règle de classification (au seuil donné s) prend aussi 
deux valeurs, 0 ou 1. Ces cas sont résumés dans la table de confusion théorique 
(tableau 14.1) où sont quantifiées les probabilités. 


oS gs(X) =0 gs(X) =1 
Y=0 Pr(Y = 0Ng,(X) =0) | Pr(Y =0Ng,(X) = 1) 
Y=1 Pr(Y =1Ng,(X) =0) | Pr(Y =1Ng;(X) = 1) 


Tableau 14.1 — Table de confusion pour une régle théorique. 


Méme si la régle g, est connue, le label Y est une variable aléatoire qui suit ici 
une loi de Bernoulli et il est donc impossible ! de trouver exactement le label Y à 
partir de X avec une règle. Autrement dit, si le modèle générant les données est 
une Bernoulli de paramètre p(x) connu, on sait seulement que E(Y|X = x) = p(x) 
mais on ne peut pas connaître les valeurs de Y. 

A partir de l'échantillon (X1,Y1),...,(Xn, Yn), échantillon noté aussi D,, nous 
avons estimé la règle théorique par g,. En appliquant cette règle estimée, nous 
obtenons des estimations du label. Il faut ensuite évaluer/estimer les probabilités 
inconnues de la table de confusion 14.1. Une manière naturelle d’estimer une pro- 
babilité est de calculer une fréquence et nous comptons donc les effectifs de chaque 
cellule. On obtient ainsi la matrice de confusion empirique (tableau 14.2) qui est 
une estimation des probabilités multipliées par le nombre d'individus. 


Prévu R _ 7 B 
Vrai ÿs(X) = 0 ÿs(X) = 1 
Y=0 Nombre VN de | Nombre FP de 
7 Vrais Négatifs | Faux Positifs 
Y=1 Nombre de FN | Nombre de VP 
7 Faux Négatifs Vrais Positifs 


Tableau 14.2 — Matrice de confusion empirique pour une régle estimée. 


Dans cette matrice nous avons introduit une nouvelle terminologie à base de né- 
gatifs/positifs. Celle-ci provient d’un cas très répandu en médecine : la découverte 
de la présence d’une maladie. Dans ce cas-là, il est d’usage d’affecter à un patient 
malade le label Y = 1 et on cherche à détecter la présence de la maladie. Si la 
probabilité estimée est inférieure à s, le label prévu est alors 0 et on parle alors de 
test négatif. Si par contre la probabilité estimée est supérieure à s, le label prévu 
est alors 1 et on parle de test positif. 


1. Sauf cas de séparation avec p(x) = 0 ou 1. 
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La question qui se pose est comment calculer cette matrice de confusion. 


Calcul à partir des données initiales 

Ici, les n données initiales de l’échantillon D, sont utilisées pour calculer les valeurs 
de la matrice de confusion 14.2. On utilise donc l’échantillon D, deux fois : une 
première fois pour estimer les paramètres du modèle et obtenir la règle estimée 
gs, et une deuxième fois pour calculer les prévisions ĝs(X;); on parle ici d’ajuste- 
ment. Ces ajustements sont enfin comparés aux observations Y;. Nous avons alors 
une table de confusion ajustée. Nous avons déjà évoqué la différence entre erreur 
d'ajustement et erreur de prévision. Les résultats calculés en ajustement seront 
toujours meilleurs que des résultats calculés sur de nouvelles données. Imaginons 
un modèle qui sur-apprend, il fera donc peu d’erreur et la table de confusion aura 
alors peu de valeurs sur les termes hors diagonale. Cependant ce modèle sera trop 
spécifique aux données et il donnera sûrement de mauvaises prévisions. Nous ne 
préconisons donc pas l’utilisation de cette table de confusion ajustée. 


Calcul à partir d’apprentissage/validation 

A partir des n données initiales de l'échantillon Dp, on propose une séparation 
des données en deux parties : une partie dédiée à l’apprentissage, une autre à la 
validation. On construit (on estime) la règle g, sur l'échantillon d'apprentissage et 
on applique cette règle sur l’échantillon de validation en utilisant la règle g,. On 
compare les labels prévus de l’échantillon de validation aux labels observés. Nous 
aurons alors une table de confusion prévue. Lors du découpage, on privilégie en gé- 
néral l’échantillon d'apprentissage qui comporte alors trois quarts des observations 
en général mais nous recommandons la procédure suivante. 


Calcul à partir d’une validation croisée 

On découpe l’échantillon initial en K blocs, blocs généralement tirés au hasard. 
Ensuite, la procédure apprentissage/validation est répétée K fois en considérant 
chaque bloc comme échantillon de validation, les K — 1 blocs restants constituent 
l'échantillon d'apprentissage. Schématisons cette procédure pour une validation 
croisée K = 4 blocs, la figure 14.1 représente l’étape de séparation initiale : 


Fig. 14.1 — Validation croisée K-blocs (K = 4) : séparation en blocs. 
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Une fois les blocs constitués, nous commencons par utiliser le bloc A en validation, 
les autres en apprentissage (voir fig. 14.2). Les blocs B,C et D sont donc utilisés 
pour estimer la règle g, que l’on utilise pour prédire la probabilité ou le label des 
individus du bloc A. On note P le vecteur qui contient ces prévisions, cela peut 


étre les probabilités ou directement le label. Dans la pratique c’est souvent les 
probabilités qui sont conservées. 
A P 
; Prévision 
B ! \ du bloc 
X Y. en validation 
C | —ė 
' Estimation 
D de 
: paramètres 
Fig. 14.2 — Validation croisée K blocs (avec K = 4, pour un modèle de régres- 
sion) : seconde étape, le bloc À est utilisé en validation, les autres en apprentissage. 


On répète ensuite cette procédure sur les blocs restants : on considère tour à tour 


les blocs B, C et D comme échantillon de validation afin d’obtenir une probabilité 
estimée pour tous les individus (voir fig. 14.3). 
A A A 
D > B B o 
X 7 A Jo Y 
C i C Ê C 
D D = G 


Fig. 14.3 — Validation croisée K blocs (avec K = 4) : étapes 3, 4 et 5, les blocs 
B,C et D sont respectivement utilisés en validation, les autres en apprentissage. 


A la fin de la procédure, nous avons pour toutes les observations le couple Y 
mesuré et Ê sa probabilité (ou son label) prévue. Si nous avons une probabilité, 
nous fixons un seuil et calculons la table de confusion. 
L’algorithme a été illustré pour K = 4 mais en pratique on utilise souvent K = 10. 
Lorsque K = n, on parle de validation croisée leave-one-out (l'abréviation “loo” 
est fréquemment utilisée). 
Remarques 

— Les algorithmes sont ici présentés pour une méthode de prévision. Si cette 
méthode nécessite un découpage des données, il faudra découper uniquement 
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Véchantillon d’apprentissage (ou l’échantillon privé du k® bloc pour la validation 
croisée). Si par exemple on souhaite faire de la régression lasso en sélectionnant 
le paramètre de régularisation par validation croisée, alors seul l’échantillon d’ap- 
prentissage (ou l'échantillon privé du k® bloc) devra être découpé en bloc pour 
la sélection du paramètre. 

— Lorsque la méthode de prévision dépend d’un paramètre, la valeur de ce para- 
mètre ne sera pas forcément la même à chaque itération de la validation croisée. 
Par exemple, si on utilise une méthode de sélection pas à pas (voir section 7.4.2), 
les variables sélectionnées à chaque étape de la validation croisée ne seront pas 
forcément les mêmes. Les algorithmes 2 et 3 sont utilisés pour choisir une pro- 
cédure (régression linéaire avec toutes les variables ou avec sélection de variable 
ou régression ridge/lasso...). Une fois la procédure choisie, on pourra la réajuster 
sur toutes les données pour obtenir le modèle final. 

— Les algorithmes sont ici présentés avec une règle de classification (donc avec 
un seuil s choisi) mais il est également possible de comparer les méthodes sans 
se fixer de seuil s en utilisant par exemple les courbes ROC (et les AUC) des 
différentes méthodes. On choisira ensuite la méthode ayant AUC le plus élevé 
et on cherchera ensuite le seuil s. 


En conclusion, en fonction du type de procédure utilisé pour évaluer la matrice 
de confusion empirique, les résultats seront en général bien différents. Les critères 
estimés à partir d’une matrice de confusion évaluée par ajustement apparaîtront en 
général meilleurs que les mêmes critères estimés à partir d’une matrice de confusion 
évaluée par apprentissage/validation, apparence qui pourrait être trompeuse. Nous 
conseillons donc fortement d’évaluer les critères sur des données qui n’ont pas 
servi à l’estimation ou dit autrement d’utiliser une matrice de confusion empirique 
évaluée par apprentissage/validation ou validation croisée si les effectifs sont trop 
faibles. 

Enfin, rappelons que la table de confusion est définie à partir d’une règle qui 
dépend d’un seuil s : les valeurs de la table FP, FN, VP, VN varient donc avec s 
ainsi que toutes les valeurs qui en découlent. Nous souhaitons ici bien marquer que 
les critères dépendent de s, mais, afin de ne pas alourdir les notations, les valeurs 
de la table (FP, FN, VP, VN) ne seront pas écrites comme fonction de s même si 
en toute rigueur nous le devrions. 


14.2.1 Erreur de classification et accuracy 
Le premier critère d'évaluation d’une règle de classification gs est l’erreur de clas- 
sification. Elle est définie par E.(s) = P(g,(X) # Y) et peut être estimée par 
x FP+FN 
E.(s) EE > 
FP+FN+VP+VN 
L’ accuracy (ou précision) est définie comme la probabilité d’être bien classé A,(s) = 
P(gs(X) = Y) et correspond donc à 1 — E,(s) et elle peut être estimée par 
2 VP+FN 
A.(s) = a | 
FP+FN+VP+VN 
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Ces deux critéres sont indépendants du choix des labels Y = 0 ou Y = 1 puisque 
l’on voit qu'ils jouent les mêmes rôles. 


14.2.2 Sensibilité (recall) et taux de faux négatifs 


La sensibilité (ou recall ou rappel) est définie par Se(s) = P(gs(X) = 1|Y = 1), 
cela correspond à la probabilité que la règle détecte les positifs parmi les positifs. 
La sensibilité peut être estimée par 


: VP 
Sels) = Tp EN’ 


Une sensibilité égale à 1 correspond à une règle qui a trouvé tous les positifs. Mais 
trouver tous les positifs est simple en proposant par exemple une régle qui indique 
que tout le monde est positif, ce que l’on peut faire en proposant un seuil s qui 
vaut 0. 
Une autre grandeur liée a la sensibilité est le taux de faux négatifs (False Negative 
Rate en anglais) : 

B(s) = FNR = Pr(g.(X) = OY = 1) 


qui est simplement 1— Se(s). Ce taux (s) est à rapprocher de l’erreur de première 
espèce en théorie des tests. Son estimation est 1 — Se(s), ce qui vaut 


: FN 
Bs) = Spa EN’ 


Ces deux grandeurs ne sont pas indépendantes du choix des labels Y = 0 ou Y = 1. 
L’utilisateur, avant de les interpréter ou de les utiliser, devra donc choisir ses labels 
et adapter son interprétation aux labels choisis. 


14.2.3 Spécificité et taux de faux positifs 


La spécificité est définie par S,(s) = P(gs(X) = 0]Y = 0), cela correspond à la 
probabilité que la règle détecte les négatifs parmi les négatifs. La spécificité peut 
être estimée par 

p(s) = -a 

VN+FP 

Une spécificité égale à 1 correspond à une règle qui a trouvé tous les négatifs. Mais 
trouver tous les négatifs est simple en proposant par exemple une régle qui indique 
que tout le monde est négatif ce que l’on peut faire en proposant un seuil s qui 
vaut 1. 
Une autre grandeur liée à la spécificité est le taux de faux positifs 
(False Positive Rate en anglais) : 


a(s) = FPR = Pr(gs(X) = 1|Y = 0) 
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qui est simplement 1 — S,(s). Ce taux a(s) est à rapprocher de l'erreur de seconde 


A 


espèce en théorie des tests. Son estimation est 1 — $,(s), ce qui vaut 


ery ee à 

âls) = TEP 

Ces deux grandeurs ne sont pas indépendantes du choix des labels Y = 0 ou Y = 1. 
L’utilisateur, avant de les interpréter ou de les utiliser, devra donc choisir ses labels 
et adapter son interprétation aux labels choisis. 


14.2.4 Mesure sur les tables de contingence 


Remarquons que la matrice de confusion empirique est une table de contingence 
2 x 2 sur laquelle nous pouvons utiliser des mesures standards d’association que 
nous rappelons ci-après. 

La plus classique d’entre elles est le x?. Le nombre de mesures dans la matrice 
de confusion empirique n* est considéré comme déterminé par l'utilisateur (non 
aléatoire). Le x? mesure l’écart au carré entre les effectifs observés et les effectifs 
théoriques sous hypothèse d'indépendance, cet écart étant divisé par les effectifs 
théoriques : 


ns Re (n Pr(Y = iNg(X) = j) — n* Pr(Y = i) Pr(g.(X) = j))” 
x8) = 2 2 n* Pr(Y = i) Pr(g.(X) = j) 


Cette mesure théorique du x? est estimée ici et donne (en remplaçant les pro- 
babilités inconnues par les fréquences correspondantes et aprés de nombreuses 
simplifications) : 
2(s) n*(VP.VN —FN.FP)? 
s)= i 
x (VN + FP)(FN+ VP)(VN+FN)(FP+VP) 
Nous voyons qu'il s’agit d’une grandeur proportionnelle à l’écart au carré entre 
valeurs biens classées et celles mal classées. Bien sûr, plus le x? est élevé, meilleure 
est notre règle de classification. Le coefficient @ de Pearson est défini par 
$(s) VP.VN-FN.FP 
8) = ; 
V (VN +FP)(FN + VP)(VN + FN) (FP +V P) 


Il varie entre —1 et +1 et est relié au x?(s) (xX? (s) = n*¢?(s)). L'interprétation de 
ce coefficient est simple : 1 classification parfaite, 0 pas de lien et —1 lien opposé 
(la classification donne 0 pour Y = 1 et 1 pour Y = 0, ce qui est à rapprocher 
plutôt d’une erreur dans les programmes...) Dans les deux cas, ces mesures sont 
indépendantes du choix du codage 0 ou 1 pour Y. 

Tous les critères que nous venons de présenter sont définis à partir d’une règle gg 
qui nécessite de fixer un seuil. Bien évidemment si le seuil s évolue, tous les critères 
associés vont évoluer. Quelle est l’évolution avec s de la qualité de classification et 
serait-il possible de penser à un critère global (pour un ensemble de s)? Il existe 
quelques critères qui ne dépendent pas du seuil s et donc pour être cohérent avec 
nos notations, nous les définirons pour le score généralisant la règle pour tout s. 
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14.3 Performance d’un score 


14.3.1 Courbe ROC 


L’idée de la courbe ROC (de Vanglais Receiver Operating Characteristic) est de 
proposer une représentation graphique de l’évolution de la qualité de classification 
avec la valeur du seuil s. La courbe ROC permet de visualiser simultanément les 
deux types d’erreur (ou par symétrie les spécificité et sensibilité) pour toutes les 
valeurs de seuil s possibles. 


Définition 14.1 


La courbe ROC d’un score S : RP + R est une courbe paramétrée par le seuil 
s E€ R d’abscisse 


x(s) = a(s) = 1 — Sp(s) = Pr(S(X) > s|Y = 0) 


et d’ordonnée 


y(s) = 1 — B(s) = Se(s) = Pr(S(X) > s|Y = 1). 
Dit autrement, la courbe ROC est la courbe paramétrée définie par 


ROC: R = (0,1)? 
s+ (x(s),y(s)). 


Il est possible d’analyser ce graphique en remarquant que l’axe des abscisses donne 
la spécificité de la règle et l’axe des ordonnées donne la sensibilité de la règle. Ce- 
pendant, afin d’analyser la courbe ROC, nous définissons deux scores particuliers : 
le score parfait et le score aléatoire. 


Définition 14.2 
— Un score S est dit parfait s'il existe un seuil fini s* tel que 


Pr(Y =1|S(X) > s*)=1 et Pr(Y =0|S(X) <s*)=1. 
— Un score S est dit aléatoire si les variables S(X) et Y sont indépendantes. 


Ces deux scores sont extrêmes en termes de performance. Si S est parfait, alors la 
règle de prévision gs+ ne commettra jamais d’erreur de classification. A l’inverse, 
si S est aléatoire, alors la note S(X) est indépendante de Y : on ne peut pas faire 
pire. L’exercice (14.5) indique que la courbe ROC du score parfait correspond 
donc à la ligne brisée joignant les points (0,0), (0,1), et (1,1). La courbe ROC 
d’un score aléatoire est le segment qui joint les points (0,0) et (1,1), c’est-à-dire 
la première bissectrice restreinte au carré [0,1]? (voir fig. 14.4). 
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1 
Fig. 14.4 — Courbes ROC d’un score parfait (trait plein) et aléatoire (tirets). 


Bien entendu, dans les cas concrets, on est rarement confronté à des scores parfaits 
et aléatoires. Les performances des scores vont se situer entre ces deux scores 
extrêmes. Pour le critère ROC, on mesurera donc la performance d’un score par 
sa proximité avec la courbe ROC du score parfait ou encore par la capacité de sa 
courbe ROC à se rapprocher le plus rapidement possible de la droite d’équation 
y = 1. 

On déduit directement de la courbe ROC un critère numérique qui permet de 
mesurer la performance d’un score. Il s’agit de l’aire sous la courbe ROC, souvent 
notée AUC (Area Under Curve). Compte tenu des propriétés de la courbe ROC 
présentées précédemment, il est facile de voir que plus PAUC d’un score S' est 
important, meilleure est la règle. En particulier, VAUC vaut 1 pour un score parfait 
et 0.5 pour un score aléatoire. Ainsi PAUC d’une règle S va varier entre 0.5 et 1: 
plus il sera proche de 1, meilleur sera le score. La propriété suivante donne une 
interprétation probabiliste de l AUC. 


Proposition 14.1 (Clémençon & Vayatis (2009)) 
L’AUC d’un score S vérifie 


AUC(S) = Pr(S(X) < $(X|(¥.¥") = (0,1) 
où (X’, Y") est un couple aléatoire indépendant et de même loi que (X,Y). 


L’AUC correspond donc à la probabilité que le score ordonne correctement deux 
observations prélevées aléatoirement dans les groupes 0 et 1. Cette propriété peut 
également être utilisée pour calculer la valeur de PAUC d’un score S (voir exercice 
14.7). Il s’agit d’un critère global puisqu'il prend en compte toutes les valeurs de s. 
La courbe ROC se calcule à partir des probabilités x(s) et y(s) qui sont en pratique 
inconnues. Pour un score S$ donné, ces probabilités pourront être estimées à partir 
de leurs versions empiriques. En pratique, pour une valeur de s, on calculera la 
matrice de confusion empirique en précisant la méthode de calcul (voir section 
14.2, p. 324) et on en déduira les estimations de a(s) et 1 — B(s). On répétera ce 
procédé pour tout un ensemble de s. 
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14.3.2 Courbe lift 


La courbe lift est une autre représentation graphique globale. Cette représentation 
est dissymétrique et donc le choix du codage (ce que signifie Y = 1 et ce que signifie 
Y = 0) a une grande importance ici. La courbe lift est comme la courbe ROC une 
courbe paramétrée par le seuil s et elle permet de balayer tous les choix de seuil. 


Définition 14.3 
La courbe lift d’un score S : RP — R. est une courbe paramétrée par le seuil s € R, 
de coordonnées suivantes 


x(s) = Pr(S(X) > s) 
y(s) = Pr(S(X) > s|Y = 1). 


Si nous comparons cette courbe lift à la courbe ROC, à un seuil donné s, elles 
possèdent la même ordonnée et seule l’abscisse change. L’idée est que la population 
est ordonnée par le score et l’on regarde quelle est, dans la population des Y = 1, la 
fraction (la probabilité) détectée comme Y = 1 en ciblant la partie de la population 
dont le score est supérieur à s. 


Essayons d’interpréter cette courbe lift dans deux exemples. Plaçons-nous dans 
un exemple de marketing où l’on essaye de prédire si le client est acheteur (noté 
Y = 1) ou non (noté Y = 0). Pour cela nous avons des variables censées être 
prédictives (comme l’âge, le sexe, la CSP, etc.) On construit donc un score § qui 
permet d’ordonner la population. Ensuite grâce au score estimé sur notre base 
client, nous enverrons des courriers de sollicitation en envoyant les courriers aux 
meilleurs scores. On souhaite voir avec la courbe lift l’évolution en fonction de 
la probabilité/ du pourcentage de clients sollicités dans la population (ou dans 
la base) quel sera le pourcentage des clients acheteurs qui seront détectés et qui 
devraient donc acheter suite au mailing. 


Plaçons-nous maintenant dans une optique de santé publique : nous avons un test 
peu coûteux qui permet de diagnostiquer une maladie avec des erreurs. La courbe 
lift va permettre de voir quelle est l’évolution, en fonction du pourcentage de la 
population totale soumise au test, du pourcentage chez les malades qui seront 
effectivement détectés avec le test. 


Comme avec la courbe ROC, nous avons deux courbes particulières correspondant 
à deux règles extrêmes : la courbe du score aléatoire et la courbe du score parfait. 
La première est sur la première diagonale, alors que pour la seconde, il y a un 
changement (voir figure 14.5 et l'exercice 14.6, p. 352). 
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0 P(Y =1) 1 


Fig. 14.5 — Courbes lift d’un score parfait (trait plein) et aléatoire (tirets) pour 
score prenant des valeurs dans R tout entier. 


Bien entendu les courbes lift dans les cas concrets vont se situer entre ces courbes 
extrêmes. 


14.4 Choix du seuil 


Le choix du seuil est dépendant du problème dans le sens où tout critère métier 
pourra prévaloir dans son choix. Il est cependant commun de ne pas en avoir, aussi 
nous allons lister quelques méthodes classiques de choix de seuil s. 


14.4.1 Respect des proportions initiales 


La méthode la plus naturelle consiste à choisir un seuil s qui redonne la proportion 
initiale des 0/1 de l'échantillon. Les probabilités prévues permettent d’ordonner 
les individus, on choisit alors le seuil qui correspond à la probabilité qui redonne 
la proportion initiale de 0/1. 


14.4.2 Maximisation d’indices ad hoc 


Un test (au seuil s) sera d’autant meilleur qu’il présente à la fois une grande 
sensibilité et une grande spécificité. L’indice de Younden J est défini par la somme 
de ces deux grandeurs moins 1 : 


J(s) = Sp(s) + Sels) — 1. 
Cet indice varie de 0 (on considère que le test est sans intérêt) à 1 où la règle 


de décision associée est la règle parfaite. Cet indice donne un poids identique aux 
Faux Positifs et aux Faux Négatifs. 
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Il est possible de maximiser le F1 score qui est défini comme la moyenne harmo- 
nique de la spécificité et de la sensibilité : 


2S.(s)S,(s) 


FOTO +0 


Il est aussi courant de chercher le point de la courbe ROC qui soit le plus près du 
point (0,1) (coin gauche). La formule est donnée par 


min((1 — Se(s))* + (1 — 5,(s))*). 


S 


14.4.3 Maximisation d’un coût moyen 


Une autre possibilité de choix d’un seuil s est d'introduire une approche minimi- 
sant un coût moyen. Pour cela, introduisons Cfp le coût associé à la détection d’un 
individu comme positif (gs > s) alors qu’en réalité il est négatif. De même, intro- 
duisons Cry le coût associé à la détection d’un individu comme négatif (gs < s) 
alors qu’en réalité il est négatif. Nous avons donc le coût moyen C qui s’écrit : 


C = Crp Pr(gs > sN Y = 0) + Cryn Pr(gs < sNY = 1) 
= Crp Pr(gs > s|Y = 0) Pr(Y = 0) + Cryn Pr(gs < s|Y = 1) Pr(Y = 1) 


Dans le milieu médical, il est d’usage d’utiliser la probabilité Pr(Y = 1) appelée 
prévalence ; il s’agit simplement de la probabilité d’être malade (Y = 1) dans toute 
la population. Pour des maladies classiques, une bonne estimation de la prévalence 
est souvent accessible. En introduisant celle-ci, nous obtenons 


C = Crp (1 — Pr(gs < s|Y =0))(1 — Pr(Y = 1)) 
+ Cry Pr(gs < s|Y = 1) Pr(Y = 1) 
= Cpp(1 — $p(8))(1— Pr(¥ = 1)) + Cali =S) Pr(¥ = 1). 


Ces deux dernières écritures sont complètement équivalentes, la dernière faisant 
apparaître la spécificité et la sensibilité alors que l’avant-dernière fait apparaître 
la fonction de répartition conditionnelle chez les Y = 0 et Y = 1. 

Maintenant, choisissons le seuil qui va minimiser le coût moyen et dérivons donc 
par rapport à s. Rappelons que si la règle de classification admet une densité 
par rapport à la mesure de Lebesgue (ce que nous supposons ici) la dérivée de la 
fonction de répartition est la densité et nous avons donc 


T = —Crp(1 — Pr(Y = 1))fgiy=o(s) + Crn Pr(Y = 1) fgjy=1 (8). 


En annulant cette dérivée, nous obtenons l’optimum s* qui est caractérisé par 


aly =1(8") _ Orr 1- Pr(Y = 1) 
fav=0(s*) Cru Pr(Y=1) 
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Ce rapport de densité a une représentation graphique évidente sur la courbe ROC : 


il s’agit de la pente de la tangente. L’optimum est donc le point (le plus proche 


; | h ET ,. Crp 1—Pr(Y=1) 
du coin gauche) dont la pente vaut la valeur censée être connue : g2 =D 


Si nous prenons les valeurs par défaut en général très peu satisfaisantes de P(Y = 
1) = 0.5 (la moitié de Y = 1 dans la population) et Crp = Cry (un coût symé- 
trique quelles que soient les erreurs), alors on cherche le point sur la courbe ROC 
qui a une tangente de pente 1. 

Bien entendu la courbe ROC est estimée et nous cherchons donc en pratique sur 
la courbe ROC estimée le point dont la pente de la tangente vaut la pente estimée 
(car en général la prévalence Pr(Y = 1) est estimée) recherchée. 


14.5 Analyse des données chd 


14.5.1 Les données 


Nous avons déjà commencé à traiter ce jeu de données dans le chapitre sur la 
régression logistique. Il s’agit d’expliquer la présence ou l’absence de maladie (la 
variable chd). On dispose ici de 9 variables potentiellement explicatives (dont une 
variable qualitative 4 2 modalités) et de 462 individus. 


> library (bestglm) 

Le chargement a nécessité le package : leaps 
> data(SAheart) 

> maladie <- SAheart 

> maladie$chd <- as.factor(maladie$chd) 

> dim(maladie) 

[1] 462 10 

> table (maladie$chd) 


Oo 1 
302 160 


Il y a donc 160 patients considérés comme malades pour 462 individus de létude 
soit 34 % de malades. 

Afin de comparer les différents modèles, nous allons appliquer la validation croisée 
avec 10 blocs. La présentation que nous allons faire sera un peu lourde (il va y 
avoir de fortes redondances de codes entre les méthodes) mais devrait permettre 
de bien comprendre la démarche. 


14.5.2 Comparaison des algorithmes 


Nous commençons par créer un data-frame qui va contenir les résultats des pré- 
visions obtenues avec chaque méthode. Cet objet va donc admettre 462 lignes qui 
correspondent aux 462 observations initiales et autant de colonnes que de mé- 
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thodes. Nous préconisons de rajouter une colonne dédiée à la valeur observée de Y 
ici le Y. 


> SCORE <- data.frame(Y = maladie$Y) 


Avant d’évaluer par validation croisée 10 blocs, nous effectuons un tirage aléatoire 
affectant chaque observation i € {1,...,n} dans un bloc b € {1,...,10}. Afin 
d'obtenir des blocs dont les effectifs sont équilibrés mais dont la proportion de 0/1 
est la même que la proportion initiale, nous travaillons en 2 étapes. L’objectif est 
de créer un vecteur appelé bloc qui contiendra dans sa if coordonnée le numéro 
du bloc dans lequel le 2° individu est affecté. 


Créons le vecteur bloc rempli de zéro. Puis nous repérons les coordonnées des 
individus des deux groupes : d’un côté les individus à tels que Y; = 0 et de l’autre 
ceux qui sont tels que Y; = 1. 


nbbloc <- 10 

bloc <- rep(0, nrow(maladie)) 
indO <- which(maladie$chd==0) 
indi <- which(maladie$chd==1) 


VVV MV 


Dans le groupe des Y; = 0, nous effectuons une répartition séquentielle de chaque 
individu 0 dans les blocs de la maniére suivante : la premiére observation va dans 
le bloc 1, la seconde dans le bloc 2 ... la 10° dans le bloc 10, la 11° dans le bloc 1, 
la 12° dans le bloc 2... que nous permutons aléatoirement. Nous faisons ensuite la 
même chose pour les individus dans le groupe des Y; = 1 : 


> set.seed(1234) 
> bloc[indO] <- sample(rep(i:nbbloc, length 
> bloc[ind1] <- sample(rep(i:nbbloc, length 


length(ind0))) 
length(ind1))) 


En conclusion, les blocs sont équilibrés en effectif mais aussi en proportion de 0/1. 
Les méthodes de régression que nous allons comparer sur ces données seront la 
régression logistique, la régression logistique avec choix de variables, la régression 
lasso, ridge ou elastic-net. 


Régression logistique 


Commengons par mettre en ceuvre la régression logistique et la régression avec 
choix de variables en utilisant le package bestglm. On conserve dans une liste 
toutes les variables sélectionnées par bloc pour vérifier si cela reste cohérent. 
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> models <- list() 
> for(i in 1:nbbloc){ 


+ print (i) 

+  maladieA <- maladie[bloc!=i, ] 

+  maladieT <- maladie[bloc==i, ] 

+  ## Logistique global 

+  reglog <- glm(chd-., data=maladieA, family="binomial") 

+  SCORE[bloc==i,"glm"] <- predict(reglog, maladieT, 

+ type="response") 
+ ## Logistique choix 

+ choix <- bestglm(maladieA, family=binomial) 

+  SCORE[bloc==i,"choix"] <- predict (choix$BestModel, maladieT, 
+ type="response") 
+ tmp <- choix$BestModels[1, -ncol(maladie)] 

+ var <- names (tmp) [tmp==TRUE] 

+  models[[i]] <- var 

a 


Nous avons donc mis en pratique la régression logistique et la régression logis- 
tique avec choix de variables. Dans la plupart des blocs, la sélection a conservé 
les variables tobacco, 1d1, famhist, typea et age. Les résultats des prévisions 
sont dans le data-frame SCORE mais avant d’analyser les résultats, appliquons les 
régressions logistiques pénalisées. 


Lasso, ridge et elastic-net 


Dans le chapitre précédent (8.3.1, p. 199), nous avons vu 3 méthodes différentes : 
ridge, lasso et elastic-net. Pour cette dernière nous allons utiliser comme valeur 
pour le paramètre a la valeur de 0.5. Il est aussi possible de modifier cette va- 
leur mais nous ne le ferons pas. En préalable, rappelons que glmnet utilise des 
matrices. La fonction model.matrix peut être utilisée pour construire la matrice 
du design X. Cette fonction permet d’effectuer le codage des variables explicatives 
qualitatives sans effort. La constante (fournie en première colonne de la sortie 
de model.matrix) étant traitée directement par glmnet, nous la supprimons au 
passage : 


> maladie.X <- model.matrix(chd~., data=maladie)[,-1] 
> maladie.Y <- maladie[, "chd"] 


Pour chaque étape de validation croisée, il faut choisir le À optimal et cela est fait 
grâce la fonction cv.glmnet. Nous effectuons donc une validation croisée dans la 
validation croisée ! Nous avons vu aussi que le choix de À peut se faire de différentes 
manières : déviance (par défaut), erreur de classement (type.measure="class") 
ou AUC (type.measure="auc"). Commencons par la méthode par défaut : 
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> library (glmnet) 
> for(i in 1:nbbloc){ 
+ print (i) 


+ XA <- maladie.X[bloc!=i, ] 

+ YA <- maladie.Y[bloc!=i] 

+ XT <- maladie.X[bloc==i, ] 

+ ## ridge 

+ mod <- cv.glmnet(XA, YA, alpha=0, family="binomial") 

+ SCORE[bloc==i, "ridge"] <- as.vector( 

+ predict(mod, XT, "lambda.1se", type="response") ) 
+ ## lasso 

+ mod <- cv.glmnet(XA, YA, alpha=1, family="binomial") 

+  SCORE[bloc==i, "lasso"] <- as.vector( 

+ predict(mod, XT, "lambda.ise", type="response") ) 
+ ## elast 

+ mod <- cv.glmnet(XA, YA, alpha=.5, family="binomial") 

+  SCORE[bloc==i, "elast"] <- as.vector( 

+ predict(mod, XT, "lambda.1se", type="response") ) 
E} 


Nous avons maintenant un data-frame avec en première colonne la valeur de Y et 
pour les autres colonnes les probabilités estimées pour les 5 modèles. Voyons les 4 
premières lignes de SCORE. 


V 


SCORE[1:4, ] 

glm choix ridge lasso elast 
6637242 0.6612646 0.5522532 0.5505895 0.5537659 
2974980 0.3695433 0.3308731 0.3786138 0.3645915 
2949491 0.3442603 0.3315480 0.3737668 0.3500686 
7 


Y 
1 
al 
(0) 
1 299084 0.7199016 0.6182603 0.5457484 0.6100731 


0. 
0. 
0. 
0. 


PWN 


Quels critères choisir pour comparer ces méthodes? Le choix du critère dépend 
bien évidemment du problème métier ; il est par exemple possible que dans certains 
cas on puisse quantifier le coût des faux négatifs FN et des faux positifs FP, mais 
ce n’est pas le cas ici. Nous allons dans un premier temps utiliser le critère le plus 
classique : le critère du taux de mal classés. 

En appliquant la fonction tauxMC (voir l'exercice 14.3 p. 351) avec un seuil 
classique de s = 0.5 on trouve : 


> round(apply(SCORE[,-1], 2, tauxMC, Y=SCORE$Y, seuil=.5) 
/ nrow(SCORE) * 100, 2) 
glm choix ridge lasso elast 
27.27 27.27 30.30 27.49 27.71 


Il semblerait que selon ce critère, la régression logistique et la régression logistique 
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avec choix de variables donnent les meilleurs résultats mais en changeant de seuil 
(fixé de manière arbitraire à 0.5), il est possible que ce classement évolue. 

Nous pouvons également choisir le coefficient À de la régression logistique pénali- 
sée, non plus par déviance mais par erreur de classement ou par AUC. Cela fait 6 
prévisions possibles supplémentaires. Nous ne présentons que le code pour la mé- 
thode ridge, mais il est identique pour lasso et elastic-net en remplaçant la valeur 
de a dans le code. 


> for(i in 1:nbbloc){ 
print (i) 
XA <- maladie.X[bloc!=i,] 
YA <- maladie.chd[bloc!=i] 
XT <- maladie. X[bloc==i, ] 
## ridge measure class 
mod <- cv.glmnet(XA, YA, alpha=0, family="binomial", 
type .measure="class") 
SCORE [bloc==i,"ridgeC"] <- as.vector( 
predict(mod,XT, "lambda.ise", type="response") ) 
## ridge measure AUC 
mod <- cv.glmnet(XA, YA, alpha=0, family="binomial", 
type .measure="auc") 
SCORE [bloc==i,"ridgeA"] <- as.vector( 
predict(mod,XT, "lambda.ise", type="response") ) 


++ te OH OH OH + + + + + + + + + 


} 


Nous avons donc maintenant 11 colonnes de résultats et nous allons comparer 
les différentes méthodes via leur AUC. Nous ne présentons que les six meilleurs 
résultats. 


> library (PROC) 

> rocCV <- roc(Y~., data=SCORE) 

> sort (round(unlist(lapply(rocCV, auc)), 3), dec=TRUE) [1:6] 
choix glm elastC elast ridgeC lassoC 

0.771 0.770 0.769 0.767 0.766 0.765 


Les résultats sont relativement voisins entre les différentes méthodes. Le choix de 
la méthode pour déterminer le paramètre À est peu important sur cet exemple. 
Dessinons les 4 courbes ROC correspondant aux 4 meilleures procédures d’estima- 
tion en utilisant le code suivant : 


ind <- order(aucmodele, decreasing=TRUE) 

mapply (plot, rocCV[ind[1:4]], col=1:4, 1ty=1:4, 
lwd=3, legacy.axes=T, add=c(F, T, T, T)) 

legend("bottomright", legend=names (SCORE) [ind[1:4]], 
col=1:4, lty=1:4, lwd=3, cex=1) 


+v+V Vv 
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Fig. 14.6 — Les courbes ROC correspondant aux 4 meilleures procédures d’esti- 


mation. 


Nous retrouvons graphiquement sur la figure 14.6 que les méthodes sont trés voi- 
sines. Pour chaque méthode, nous résumons les résultats en cherchant le seuil 
optimal via le critère de Younden ainsi que les valeurs de différents critères pour 
ce seuil. Nous appliquons donc a chaque composante de la liste rocCV la fonction 


coords : 


> tmp <- lapply(rocCV, FUN =coords, x="best", 
ret=c("threshold" z Dpi 3 Mago ; "fne 2 "Een" ; 
+ "sensitivity", "specificity", 
> mat <- do.call(rbind, tmp) 


+ 


ac"), transpose = TRUE) 


Les composantes de la liste sont ensuite rassemblées dans la matrice mat qui est 


arrondie : 


> round (mat ,3) 


threshold 
glm 0.297 
choix 0.334 
ridge 0.346 
lasso 0.311 
elast OST 
ridgeC 0.349 
lassoC 0.378 
elastC 0.380 
ridgeA 0.346 
lassoA 0.377 
elastA 0.371 


tp 
127 
120 
123 
133 
111 
121 
112 
110 
129 
108 
107 


fp 
111 
97 
101 
130 
86 
99 
90 
85 
118 
89 
89 


fn 
33 
40 
37 
27 
49 
39 
48 
50 
31 
52 
53 


tn sensitivity specificity accuracy 


191 
205 
201 
172 
216 
203 
212 
217 
184 
213 
213 


O. 
.750 
.769 
.831 
.694 
.756 
. 700 
.688 
.806 
.675 
.669 


Soo Ses eee 


794 


0. 
.679 
.666 
.570 
6 (Aus) 
.672 
.702 
o CLP) 
. 609 
. 705 
. 705 


See ss ee ae ee 


632 


0. 
. 703 
.701 
.660 
. 708 
.701 
.701 
.708 
.677 
.695 
. 693 


Oo CG O OO OnO oe Se 


688 
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Les résultats obtenus sont très proches d’une ligne à l’autre. Notons tout de même 
que dans tous les cas, la valeur du seuil est inférieure au seuil classique de 0.5. 
Les critères calculés ici dépendent bien entendu du découpage en 10 blocs effectué. 
Afin d'obtenir des résultats plus stables, il est courant de répéter cette procédure 
de validation croisée sur plusieurs découpages en blocs et de faire la moyenne des 
résultats obtenus. Dans la section suivante, nous proposons donc de répéter la 
validation croisée plusieurs fois et ensuite de considérer des transformations des 
variables explicatives dans les modèles. 


14.5.3 Pour aller plus loin 
Stabilité des résultats 


Afin d’obtenir des résultats qui ne dépendent pas du découpage, nous proposons de 
répéter la procédure de validation croisée 20 fois. Nous allons collecter les résultats 
dans un array à 3 dimensions : la première correspondra aux nombres d'individus, 
la seconde au nombre de méthodes et la troisième au nombre de validations croisées 
(ici 20). Nous limitons cet exemple aux 5 premières méthodes vues (logistique, 
choix de variables, ridge, lasso et elastic-net avec le choix de À par la méthode de 
la déviance). On commence par créer tous les objets nécessaires : 


library(glmnet) ; library (bestglm) 

data(SAheart) 

maladie <- SAheart 

maladie$chd <- as.factor(maladie$chd) 

maladie.X <- model.matrix(chd~. ,data=maladie) [,-1] 
maladie.Y <- maladie[,"chd"] 

indO <- which(maladie$chd==0) 

indi <- which(maladie$chd==1) 

niter <- 20 


WIM N NMT NEM VV NM 


Ensuite nous créons l’array des résultats et 


> SCORE <- array(0,dim=c(nrow(maladie) ,5,niter), 


+ dimnames=list(1:nrow(maladie) , 
+ c("glm","choix","ridge","lasso","elast"), 
+ 1:niter)) 


> nbbloc <- 10 
> bloc <- rep(0, nrow(maladie) ) 


Il est maintenant possible de remplir l’array SCORE en faisant 2 boucles : une 
qui va indiquer quelle validation croisée on effectue (bien penser à faire évoluer la 
graine de construction des blocs sinon on obtiendra niter fois le méme résultat) 
et une qui va gérer les blocs (comme précédemment). 
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for(j in 1:niter){ 
set .seed(1233+j) 
bloc[ind0] <- sample(rep(1:nbbloc, length = length(indO))) 
bloc[ind1] <- sample(rep(1:nbbloc, length = length(ind1))) 
for(i in 1:nbbloc){ 

malA <- maladie[bloc!=i, ] 

malT <- maladie[bloc==i, ] 

### Logistique global 

reglog <- glm(chd~. ,data=malA,family="binomial") 

SCORE [bloc==i,"glm",j] <- predict (reglog,malT, type="response") 


## Logistique choix 

choix <- bestglm(malA, family=binomial) 

SCORE [bloc==i,"choix",j] <- predict( 
choix$BestModel, malT, type="response") 

## matrices apprentissage/test 

XA <- maladie.X[bloc!=i,] 

YA <- maladie.Y[bloc!=i] 

XT <- maladie. X[bloc==i, ] 

## ridge 

mod <- cv.glmnet (XA, YA,alpha=0,family="binomial") 

SCORE [bloc==i,"ridge",j] <- as.vector( 


predict(mod, XT, "lambda.ise", type="response 


mod <- cv.glmnet (XA, YA,alpha=0,family="binomial") 


SCORE [bloc==i,"ridge",j] <- predict (mod,XT,type="response") 


## la suite est identique (lasso elasticnet), 
## remplacer alpha et le nom dans l’objet SCORE 


Nous avons donc maintenant 20 matrices de résultats. Pour chaque validation 
croisée (chaque tranche du array), nous calculons AUC pour les 5 méthodes et 
faisons cela 20 fois. Il est ensuite possible de calculer la moyenne des AUC par 


méthode mais aussi de dessiner un boxplot par méthode. 


library (pROC) 
res <- matrix(0,nrow=niter,ncol=5) 
colnames(res) <- dimnames (SCORE) [[2]] 
for(j in 1:niter){ 
tmp <- SCORE[,,j] 

res[j,] <- apply(tmp, 2, auc, response=maladie$chd) 
} 
round(apply(res, 2, mean), 3) 

glm choix ridge lasso elast 
0.774 0.774 0.772 0.767 0.770 
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Nous retrouvons globalement les résultats précédents. Analysons la variabilité des 
résultats via un boxplot 


> boxplot(res,main="Distribution des AUC par méthode") 


Distribution des AUC par procedure 
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Fig. 14.7 — Boxplot des méthodes. 


Les régressions logistiques avec choix de variables donnent les meilleurs résultats 
mais avec une valeur médiane comparable au modèle de régression logistique clas- 
sique (avec toutes les variables). Ce dernier est beaucoup plus stable et serait 
à privilégier. Il faudrait donc estimer le modèle sur toutes les données avant de 
Vutiliser. 


Créations de variables 


Nous proposons ici de considérer des transformations des variables explicatives 
dans les modèles (features ingeniering). Commençons par analyser les modèles avec 
interactions, nous avons maintenant 45 variables, il n’est plus possible d'utiliser 
bestglm, nous utiliserons pour choisir des variables la fonction step. 


Modèle de prévision avec interactions 


Observons qu'il suffit de changer Y~. par Y~.~2 à chaque fois où cela intervient. 
Nous obtenons alors : 
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SCOREint <- data.frame(Y = maladie$chd) 
maladie.X <- model.matrix(chd~.~2,data=maladie) [,-1] 
maladie.Y <- maladie[,"chd"] 
for(i in 1:nbbloc){ 
print (i) 
malA <- maladie[bloc!=i, ] 
malT <- maladie[bloc==i, ] 
## Logistique global 
reglog <- glm(chd~.~2,data=malA,family="binomial") 
SCOREint [bloc==i,"glm"] <- predict (reglog,malT, type="response") 
## Logistique choix 
choix <- step(reglog,trace=0) 
SCOREint [bloc==i,"choix"] <- predict (choix,malT,type="response") 
## matrices apprentissage/test 
XA <- maladie.X[bloc!=i,] 
YA <- maladie.Y[bloc!=i] 
XT <- maladie. X[bloc==i, ] 
## ridge 
mod <- cv.glmnet (XA, YA,alpha=0, family="binomial") 
SCOREint [bloc==i,"ridge"] <- as.vector (predict ( 
mod, XT, "lambda.ise", type="response") ) 
## la suite est identique (lasso elasticnet), 
## remplacer alpha et le nom dans l’objet SCORE 
} 
> rocCVint <- roc(Y-.,data=SCOREint) 
> sort (round(unlist(lapply(rocCVint, auc)),3), decreasing=TRUE) 
lasso elast ridge choix glm 
0.776 0.775 0.766 0.743 0.709 


Les résultats ne sont pas bien meilleurs que ceux obtenus sans les interactions. 
Poursuivre avec des interactions semble peu utile dans ce problème. 


Modèle de prévision avec des polynômes 


Nous pouvons facilement construire la matrice (ou un data-frame) avec comme 
variables, les variables initiales, les variables initiales élevées au carré, les variables 
initiales élevées au cube. Il faut au préalable déterminer les variables qui sont des 
facteurs pour ne pas les élever au carré. 


typevar <- sapply(maladie, class) 

X <- maladiel, typevar!="factor"] 

maladieP <- data.frame(maladie[,1:9], X°2, X°3, chd=maladie$chd) 
maladie.X <- model.matrix(chd~., data=maladieP) 

maladie.Y <- maladie[, "chd"] 


WIMI NEN Vv 
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Nous avons 25 variables explicatives et les résultats sont ici plus mauvais que les 
précédents. 


lasso elast choix glm ridge 
“ 0.768 0.768 0.759 0.756 0.750 


Cette modification des variables n’a pas eu d’effet et poursuivre la construction de 
variable à l’aveugle, de manière automatique, ne semble pas opportun. 


Modèle de prévision avec des splines 


Résumons ce que nous avons appris jusqu’ici : les carrés/cubes des variables 
semblent inutiles, les interactions aussi. Nous avons vu que certaines variables 
semblent plus utiles que d’autres (voir section 14.5.2, p. 336). Puisque les va- 
riables ne sont pas en grand nombre, nous pouvons examiner les résidus partiels 
(voir p. 278). Afin de garder toutes les procédures à égalité, nous allons utiliser 
non pas toutes les données mais seulement les données d’apprentissage, et donc 
par exemple toutes les données sauf le bloc 1 (on aurait pu tout aussi bien exclure 
le bloc 2 ou le 3; on espère que la structure se conserve d’un bloc à l’autre) : 


| malA <- maladie[bloc!=1, ] 

| mod <- glm(chd~., data=malA, family="binomial") 

Comme nous souhaitons trouver d’éventuelles transformations des variables expli- 
catives quantitatives continues, nous éliminons les variables qualitatives et nous 
calculons les résidus partiels. Ensuite, nous rassemblons pour chaque variable ini- 
tiale, les valeurs de celle-ci, les résidus partiels et le nom de la variable dans un 
data-frame : 


| typevar <- sapply(maladie, class) 
X <- malA[, typevar!="factor"] 
rp <- resid(mod, type="partial")[, colnames(X)] 
rpdt <- data.frame(x=as.vector(data.matrix(X)), 
y=as.vector(rp), 
z=rep(colnames(rp), each=nrow(rp))) 


Le couple variable initiale, résidus partiels est ensuite tracé avec un lissage de type 
spline de lissage (voir section 11.4.3, p. 278 pour la présentation de la méthode). 


library (lattice) 
xyplot (y~x|z,data=rrdt,scale=list (x="free"), 
panel = function(x, y) { 
panel.xyplot(x, y, pch=3) 
smooth <- smooth.spline(x, y) 
panel.lines(x = smooth$x, y = smooth$y) }) 
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Fig. 14.8 — Résidus partiels. 


Nous voyons que la seule variable montrant de la non-linéarité est la variable 
tobacco. Si nous agrandissons le graphique (fig. 14.9), nous voyons que la majeure 
partie de la non-linéarité se situe dans la première partie de la courbe. Les résidus 
partiels augmentés donnant les mémes graphiques, ils ne sont pas représentés ici. 
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Fig. 14.9 — Résidus partiels pour la variable tobacco et droites aux noeuds. 


Les splines polynomiales ne sont présentées qu’au chapitre 16 mais il nous semble 
intéressant de les mettre en application ici. Présentons-les rapidement : il s’agit 
de bouts de polynémes raccordés en des points que l’on appelle nœuds. Plus on 
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ajoute de nœuds, plus la spline peut varier (osciller). Nous allons donc placer les 
nœuds au départ en 2.5,5,7.5 et 10 (ou proposer un autre modèle et enlever le 
premier nœuds, et garder 5,7.5 et 10). Le degré choisi sera le plus petit pouvant 
permettre des oscillations comme dans la figure 14.9, donc 2. 

Générons la base de B-splines : 


deg <- 2 
xi <- c(2.5, 5, 7.5, 10) 
K <- length(xi) 
var <- maladie$tobacco 
BX1 <- bs(var, knots=xi, degree=deg, 
Boundary.knots=c(min(var) ,max(var)), intercept =F) 
colnames(BX1) <- paste("tabac", "b", 1:(K+deg) ,sep="") 


Ajoutons cette base aux autres variables explicatives et générons les matrices né- 
cessaires à glmnet : 


maladieSi <- cbind.data.frame(maladie, BX1) 
maladieS1.X <- model.matrix(chd-., data=maladieS1)[, -1] 
maladieS1.Y <- maladieS[, "chd"] 


Nous avons 15 variables explicatives et ce nombre étant assez faible, nous pouvons 
nous attendre à ce que le lasso, ridge et elastic-net ne soient pas très utiles ici. Par 
ailleurs, nous pouvons aussi utiliser un modèle plus réduit avec la base de B-splines 
pour tobacco et uniquement les variables 141 famhist typea et age. 


glm_bsi_restr glm_bsi ridge_bsi choix _bsi lasso_bsi elast_bs1 
0.790 0.783 0.782 0.779 0.774 0.771 


Comme pressenti, nous obtenons les meilleurs résultats avec le modéle comportant 
le plus petit nombre de variables : la base de B-splines pour tobacco et uniquement 
les variables 141 famhist typea et age. Si nous supprimons le nœud en 2.5, nous 
atteignons un AUC de 0.792. 


14.6 Application : détection d’images publicitaires 
sur internet 


14.6.1 Les données 


On cherche a identifier dans les sites web des images publicitaires. On dispose 
de 3279 observations, chaque observation est une image caractérisée par 1558 
attributs (les variables explicatives) et si elle est publicitaire ou pas (variable a 
expliquer binaire Y : 1 si publicité, 0 sinon). Les données sont disponibles sur le 
site de l'UCI Machine Learning Repository 7. On importe les données et on donne 


2. https://archive.ics.uci.edu/ml/datasets/internet+advertisements 
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le nom Y à la variable à expliquer : 


> pub <- read.table("ad_data.txt", header = FALSE, sep = ",", 
+ dec = ".", na.strings = "?", strip.white = TRUE) 
> names (pub) [ncol(pub)] <- "Y" 
> table (pub$yY) 
ad. nonad. 
459 2820 


Les effectifs sont trés déséquilibrés : dans la base, nous avons seulement 13 % 
de publicités (ad.) à analyser. Nous recodons les modalités nonad. en 0 et ad. 
en 1 et nous assignons le niveau de base au niveau 0 avec la fonction relevel. 
Les quatre premiéres variables potentiellement explicatives admettent un certain 
nombre de valeurs manquantes (903, 901, 910 et 15). Nous choisissons de supprimer 
ces variables : 


> pub$Y <- factor(pub$Y, labels=c("1","0")) 
> pub$Y <- relevel(pub$Y, "0") 
> pub <- pub[,-(1:4)] 
> table (pub$yY) 
0 1 
2820 459 


Nous allons comparer la régression logistique et les régressions pénalisées en utili- 
sant une validation croisée 10 blocs. Nous découpons donc les données en 10 blocs 
en respectant la proportion de 0/1. 


> indO <- which (pub$Y==0) 
> indi <- which (pub$Y==1) 


> set.seed(1234) 

> nbbloc <- 10 ; bloc <- 1:nrow(pub) 

> bloc[indO] <- sample(rep(1:nbbloc, length = length(indO))) 
> bloc[ind1i] <- sample(rep(1:nbbloc, length = length(ind1))) 


14.6.2 Ajustement des modèles 


Au vu du nombre important de variables explicatives, nous nous attendons a ce que 
les méthodes pénalisées aient de bons résultats. Rappelons que celles-ci choisissent 
le À optimal par validation croisée avec la fonction cv.glmnet. Nous allons donc 
effectuer une validation croisée (avec cv.glmnet, validation croisée interne) dans 
notre validation croisée (validation croisée externe). Bien évidemment d’un bloc de 
validation croisée externe à l’autre, les À optimaux calculés seront différents et la 
validation croisée externe permet de choisir une méthode mais pas les paramètres. 
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Une fois la méthode choisie, il est donc nécessaire de l’appliquer sur toutes les 
données afin d’avoir un modèle de prévision prêt à l’emploi. 


Mettons en place le data-frame qui va contenir les résultats (SCORE) ainsi que les 
matrices utilisées par la fonction glmnet : 


> library(glmnet) 

> SCORE <- data.frame(Y=pub$Y) 

> pub.X <- model.matrix(Y~., data=pub) [,-1] 
> pub.Y <- pub[,"Y"] 


Nous commençons la boucle sur les blocs et nous réalisons le modèle logistique 
complet qui sert d’étalon et dont on s’attend à de mauvaises performances. 


> for(i in 1:nbbloc){ 

+ print(i) 

+ pubA <- pub[bloc!=i,] 

+ pubT <- pub[bloc==i,] 

+ ## Logistique global 

+ reglog <- glm(Y-., data=pubA, family="binomial") 

+ SCORE[bloc==i,"glm"] <- predict(reglog, pubT, type="response") 


Ensuite nous effectuons un choix de variables ascendant; le nombre de variables 
explicatives étant trés grand, partir d’un petit nombre de variables semble plus 
judicieux : 


+ ###Logistique choix 

regi <- glm(Y~1,data=pubA,family="binomial") 

+ choix <- step(regl,scope=list (lower=formula(reg1) , 
upper=formula(reglog)) ,trace=0) 


+ 


+ models[[i]] <- formula(choix) 
+ SCORE[bloc==i,"glmch"] <- predict(choix,pubT,type="response") 


Enfin, pour les méthodes pénalisées, nous avons vu que le choix de À peut se 
faire de différentes manières : déviance (par défaut), erreur de classement (avec 
l'option type.measure="class") ou AUC (avec l’option type.measure="auc"). 
Nous donnons le code pour la logistique, ridge, lasso et elastic-net avec le choix 
classique de À. Pour les autres critères de choix de À, le code n’est pas donné mais 
il se trouve dans l’exemple précédent. 
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## méthodes pénalisées 
XA <- pub.X[bloc!=i,] 
YA <- pub.Y[bloc!=i] 
XT <- pub.X[bloc==i,] 
## ridge 
mod <- cv.glmnet(XA, YA, alpha=0, family="binomial") 
SCORE [bloc==i,"ridge"] <- as.vector (predict ( 
mod, XT, "lambda.ise", type="response") ) 
## lasso 


mod <- cv.glmnet(XA, YA, alpha=1, family="binomial") 
SCORE [bloc==i,"lasso"] <- as.vector (predict ( 
mod, XT, "lambda.ise", type="response") ) 
## elast 
mod <- cv.glmnet(XA, YA, alpha=.5, family="binomial") 
SCORE [bloc==i,"elast"] <- as.vector (predict ( 
mod, XT, "lambda.ise", type="response") ) 


wt ttt + + + + + + + + + + + + 


Nous pouvons donc maintenant comparer les 10 différentes modélisations. Cette 
comparaison va être faite via PAUC ; nous affichons les 6 meilleures méthodes : 


> library (PROC) 

> rocCV <- roc(Y-.,data=SCORE) 

> sort(round(unlist(lapply(rocCV, auc)), 3), decreasing=TRUE) [1:6] 
ridge ridgeC ridgeA elastA lassoA elastC 

0.982 0.982 0.963 0.963 0.961 0.959 


Quelle que soit la façon de choisir À, la méthode ridge donne de bien meilleurs 
résultats que les autres méthodes. Cet exemple permet de mettre en évidence 
Vapport des méthodes régularisées en grande dimension. 


Si l’on répète 20 validations croisées (attention à la durée de l’exécution des codes) 
en parallélisant. 


library (doParallel) 

niter <- 20 

coredispo <- max(detectCores()-1,1) 

cl <- makeCluster(min(coredispo ,niter) ) 
clusterSetRNGStream(cl,iseed=78) 
registerDoParallel (cl) 


VVVVV MV 


390 Régression avec R 


> res <- foreach(j=1:niter) #dopar“ { 
+ SCORE <- data.frame(Y=pub$Y) 

+  nbbloc <- 10 

+  set.seed(1234+j) 
+ 
+ 
+ 


bloc[indO] <- sample(rep(1:nbbloc, length = length(ind0) )) 
bloc[ind1] <- sample(rep(1:nbbloc, length = length(ind1))) 
for(i in 1:nbbloc) { 

wea Jp 

SCORE 


ae 


La liste des 20 data-frames SCORE est ensuite analysée en appliquant les fonctions 
ffroc puis ffauc à chaque composante. Enfin les résultats (AUC) sont rassemblés 
dans une matrice (aucm4_20) et on en tire la moyenne : 


ffroc <- function(x) roc(Y-., data=x) 

ttm4_20 <- lapply(scorepubm4_20VC, ffroc) 

ffauc <- function(x) unlist(lapply(x, auc)) 

aucm4_20 <- do.call(rbind, lapply(ttm4_20, ffauc)) 

print (sort (apply (aucm4_20,2,mean), decreasing=TRUE) [1:6], 3) 
ridge ridgeC elastA ridgeA lassoA elast 

0.980 0.979 0.963 0.963 0.959 0.954 


VVVV MV 


Nous retrouvons globalement les résultats précédents. Analysons la variabilité des 
résultats via un boxplot. 


> boxplot (res) 
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Fig. 14.10 — Boxplot des méthodes sans le modèle complet logistique. 


Les régressions logistique ridge restent les meilleures et leurs AUC très proches de 
1 nous indiquent que cette modélisation est difficilement améliorable. Nous nous 
arrêterons donc ici. 
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14.7 Exercices 


Exercice 14.1 (Questions de cours) 
1) La spécificité mesure 
A. la probabilité de classer à tort un label Y = 0, 
B. la probabilité de classer à tort un label Y = 1, 
C. la probabilité de classer à raison un label Y = 0, 
D. la probabilité de classer à raison un label Y = 1. 
2) La sensibilité mesure 
A. la probabilité de classer à tort un label Y = 0, 
B. la probabilité de classer à tort un label Y = 1, 
C. la probabilité de classer à raison un label Y = 0, 
D. la probabilité de classer à raison un label Y = 1. 
3) L'acronyme AUC désigne 
A. l'aire sous la courbe ROC, 
B. la courbe paramétrée s +> (a(s), B(s)), 
C. la courbe paramétrée s +> (a(s), 1 — B(s)). 
4) L'acronyme ROC désigne 
A. l'aire sous la courbe AUC, 
B. la courbe paramétrée s +> (a(s), 1 — B(s)), 
C. la courbe paramétrée s +> (a(s), G(s)). 


Exercice 14.2 (f Règle de Bayes) 
1) Soit (X,Y) un couple aléatoire à valeurs dans R? x {0,1}. 
a) Rappeler la définition de la règle de Bayes g* et de l'erreur de Bayes L*. 
b) Soit g une règle de décision. Montrer que 


Pr(g(X) A YIX = z) = 1 — (Lg(w)=10(#) + 1g(@)=0(1 — n(£))) 


où n(x) = Pr(Y = 1|X = x). 
c) En déduire que pour tout x € IR? et pour toute règle g 


Pr(g(X) # YIX =a) — Pr(g"(X) # YIX = x) > 0. 


d) Conclure. 
2) On considère (X,Y) un couple aléatoire à valeurs dans R x {0,1} tel que 


iv< 
Kes Wee rés di es sso 
lusi six >0 
où Ua, b] désigne la loi uniforme sur [a,b]. Les variables X et U sont supposées indépen- 
dantes. Calculer la règle de Bayes et l'erreur de Bayes. 


Exercice 14.3 (Fonctions R) 
En vous inspirant du code précédent et des codes déjà proposés, écrivez 


1. une fonction tauxMC qui prend en argument les valeurs de Y, une probabilité estimée 
p et un seuil s et calcule le taux de mal classés. Appliquer ensuite cette fonction à l'objet 
SCORE en jouant avec la valeur de s; 


2. une fonction sensibilite qui prendrait les mêmes arguments que la tauxMC. Visualiser les 
résultats de cette fonction pour les différentes méthodes en faisant varier la valeur de s. 
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Exercice 14.4 (Score aléatoire) 
Considérons une règle S aléatoire, montrer que la courbe ROC de cette règle est le segment 
qui joint les points (0,0) et (1,1), c'est-à-dire la première bissectrice restreinte au carré [0, 1]?. 


Exercice 14.5 (Score parfait et courbe ROC) 
Considérons une règle S parfaite et son seuil associé s*, montrer que la courbe ROC passe 


1. par le point (0,1) quand s = s*, 
2. par les points [(0, 1), (0,0)] quand s > s*, 
3. par les points [(1,1),(0,1)] quand s < s*. 


La courbe ROC de la règle parfaite correspond à la ligne brisée joignant les points (0,0), 
(0,1), et (1,1). 


Exercice 14.6 (Score parfait et courbe lift) 
Considérons une règle S parfaite et son seuil associé s*. 


1. Montrer que la courbe lift passe par le point (Pr(Y =1),1) quand s = s*. 


2. Montrer que la courbe est le segment [(Pr(Y = 1),1),(0,0)] quand s > s*. Pour cela, 
retrouver qu'un point quand s > s* à pour coordonnées x(s),y(s) définies par x(s) = 
Pr(S(X) > s) et y(s) = x(s)/Pr(Y = 1). En déduire qu'il s'agit bien d'un segment dont 
on donnera les extrémités et la pente. 


3. Montrer que la courbe lift passe par les points [(1, 1), (Pr(Y = 1),1)] quand s < s*. Pour 
cela, remarquer que Vs < s*, tous les Y = 1 sont détectés. Trouver ensuite le point atteint 
pour le seuil minimal (0 dans le cas d'un score issu d'une probabilité). 


La courbe lift de la règle parfaite correspond donc à la ligne brisée joignant les points (0,0), 
(Pr(Y = 1),1), et (1,1). 


Exercice 14.7 (Calcul de scores avec R) 
On considère n observations (X1, Y1),...,(Xn, Yn) où X; est à valeurs dans IR? et Y; dans 
{0,1}. On se donne également S : IR? — R une fonction de score. 
1) A partir de la proposition 14.1, proposer un estimateur de l'AUC de S. 
2) On considère les données de l'exercice 11.6. 
a) Séparer l'échantillon en un échantillon d'apprentissage de taille 300 et un échantillon 
de validation de taille 200. 
b) Estimer les paramètres du modèle logistique avec les données d'apprentissage unique- 
ment. En déduire une fonction de score $. 
c) Calculer les valeurs de score pour chaque individu de l'échantillon de validation. 
d) A partir de l'estimateur proposé à la question 1), calculer AUC(S). 


A 


e) Retrouver AUC(S) à l’aide de la fonction roc du package pROC. 


Exercice 14.8 (f Validation croisée) 
On considère le jeu de données sur les images publicitaires présenté dans la section 14.6. On 
souhaite ici comparer la régression logistique, les régressions ridge, lasso et elastic-net par 
validation croisée. 
1) Séparer l'échantillon en 10 blocs possédant approximativement la même taille. On pourra 
utiliser la fonction sample. 
2) A l'aide de l'algorithme de validation croisée, calculer pour chaque méthode la probabilité 
estimée qu'une image soit une publicité. 
3) En déduire les courbes ROC, les AUC et les erreurs de classification des 4 méthodes. 


Chapitre 15 


Données déséquilibrées 


Ce chapitre traite d’un probleme trés fréquemment rencontré en classification 
binaire : les données déséquilibrées. Il se produit lorsque les deux modalités de 
la variable cible Y ne sont pas représentées de façon égale ou plus précisément 
lorsqu'une des deux modalités est fortement majoritaire. On peut citer comme 
exemples les cas de la détection de fraudes (peu de fraudeurs), de la présence 
d’une maladie rare (peu de patients atteints)... Les algorithmes standards peuvent 
être mis en difficulté et de nouvelles stratégies doivent être élaborées. Nous pro- 
posons d'étudier tout d’abord le problème du déséquilibre à travers l’exemple du 
modèle logistique. Cette étude nous permettra de mieux identifier les difficultés. 
Nous mettrons ensuite en place différentes stratégies pour répondre à ce problème. 
Elles consisteront à utiliser des critères de performance qui permettent de prendre 
en compte le déséquilibre et/ou à ré-échantillonner les données pour se rapprocher 
d’une situation équilibrée. Nous discuterons enfin du choix de la meilleure stratégie 
pour un problème de données déséquilibrées. 


15.1 Données déséquilibrées et modèle logistique 


15.1.1 Un exemple 


Nous considérons deux modèles logistiques univariés où la variable explicative X 
suit une loi uniforme sur [0,1]. Les caractéristiques de ces modèles sont : 


logit P8 oa (zi) = 3—6%, modèle 1 
logit Po noaa (£i) = 1—6x;, modèle 2. 


Nous proposons d'étudier numériquement les propriétés de l’estimateur du maxi- 
mum de vraisemblance (EMV) de 8 = (81, 82)’ dans ces deux modèles. Naïvement, 
les deux modèles ne différant que par la valeur de B;, on s’attend à ce que les esti- 
mations de G2 se comportent de manière similaire. Avant de simuler des Y suivant 
une loi de Bernoulli de paramètre pg(x;) pour ces deux modèles, visualisons l’évo- 
lution de pg(x) en fonction de x. 
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Fig. 15.1 — Évolution de pg(x) pour les modèles 1 (trait plein) et 2 (tirets). 


On remarque que pg(x) varie entre 0 et 1 avec une symétrie par rapport à 0.5 pour 
le modèle 1 alors que, pour le second modèle, ps(x) prend toujours des valeurs 
faibles : la plus forte probabilité vaut 0.25 quand x; est proche de zéro. D’un 
point de vue pratique, cela signifie que dans les échantillons issus du modèle 1, les 
proportions de 0 et de 1 seront proches alors que dans le cas du modèle 2 nous 
devrions avoir beaucoup plus de 0. 

Nous générons 1000 échantillons de 200 points (i = 1,...,n) selon ces deux mo- 
dèles. Comme annoncé, dans le modèle 1 les proportions de 0 et de 1 sont (quasi- 
ment) équilibrées alors que dans le modèle 2, nous observons que la proportion de 
1 est de 5 % en moyenne. Nous calculons pour chaque modèle les estimateurs du 
maximum de vraisemblance de 6, et 32. Nous obtenons ainsi, pour chaque modèle, 
mille valeurs pour B1 et Bo. On visualise sur la figure 15.2 la distribution de ces 
valeurs à l’aide d’un boxplot, la vraie valeur de 6 a été retranchée afin de pouvoir 
mieux visualiser le biais. 


e 
š 8 
modi mod2 modi mod2 


Fig. 15.2 — Boxplot de 3; — Bi (gauche) et Bo — b2 (droite) pour les 2 modèles. 


Nous observons des performances différentes pour les estimateurs. Le biais est 
faible dans tous les cas mais la variance est beaucoup plus élevée dans le se- 
cond modèle, surtout pour l’estimation de 62. Ce constat peut paraître surprenant 
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puisque la seule différence entre ces deux modèles est la valeur de 81. Le déséqui- 
libre contribue a cette augmentation de variance. 
Revenons aux propriétés de l’'EMV présentées dans la section 11.2.3. Nous avons 
vu que, pour n suffisamment grand, la matrice de variance de l’'EMV peut être 
approchée par 

TB) = (X’W,X)* 
où W; est la matrice diagonale n x n de terme général p;(x;)(1 — ps(xi)),à = 
1,...,n. Lorsque nous sommes en présence de données déséquilibrées, les proba- 
bilités polzi) ont tendance à approcher 0 ou 1 et par conséquent les termes de 
la diagonale de W3 se rapprochent de 0. Un terme nul sur la diagonale de W3 
équivaut à supprimer l'observation associée à ce terme. Nous avons ici beaucoup 
de valeurs à quasiment 0 et donc nous supprimons « quasiment » un grand nombre 
d'observations et la variance augmente. 
Le déséquilibre influence donc la variance de PEMV et les estimateurs sont moins 
précis. Une solution classique pour pallier cette difficulté consiste à rééquilibrer 
les données, c’est-à-dire à « s’arranger » pour avoir des proportions de 0 et de 1 
du même ordre dans l'échantillon. Bien entendu, un tel rééquilibrage impacte le 
modèle : on n’estime plus les mêmes quantités lorsqu'on calcule les estimateurs sur 
des données rééquilibrées ! Il est donc nécessaire de bien expliciter la façon dont le 
rééquilibrage est effectué afin de s’assurer que les conclusions soient correctes. Dans 
le cadre du modèle logistique, il est possible de prendre en compte le rééquilibrage 
dans l'écriture du modèle. Nous l’expliquons dans la partie suivante. 


15.1.2 Rééquilibrage pour le modèle logistique 


Pour simplifier les notations, nous considérons le cas d’une seule variable explica- 
tive mais rien ne change dans le cas où il y en a plusieurs. Pour un couple (x, y) 
où x € R désigne la variable explicative et y la variable à expliquer à valeurs dans 
{0,1}, on considère le modèle logistique 


logit ps(x) = bı + Bow. (15.1) 


Le problème est toujours d’estimer 8 = (81, G2)’. On se place dans le cas de don- 
nées déséquilibrées et, pour fixer les idées, on considère la situation où pg(x) est 
petit. Dans ce cas la proportion de 1 dans l’échantillon est faible et la variance 
de PEMV de à risque d’être élevée. L’idée va donc être d’essayer d’augmenter 
cette proportion de 1 afin d’améliorer la performance de l’'EMV. Nous introdui- 
sons alors une nouvelle variable s à valeurs dans {0,1} qui va permettre de donner 
plus de poids à la classe minoritaire dans l’étude. Le contrôle de ce poids s’ef- 
fectue en définissant la loi de s conditionnellement à y à travers les probabilités 
conditionnelles 


To = Pr(s=1ly=0,x) et 7 = Pr(s = l|y = 1, x). 


Il existe plusieurs façons de construire cette variable qui seront présentées dans la 
section 15.1.3. Mais à ce stade on pourra garder en tête que si l’objectif est d’aug- 
menter le poids de la classe 1, on choisira 7; grand et To petit. Remarquons que To 
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et 7, ne dépendent pas de x, cela revient à dire que s et x sont, conditionnellement 
à y, indépendants. 

Un individu est donc désormais constitué d’un triplet (x, y, s) et le modèle rééqui- 
libré va se concentrer uniquement sur les individus pour lesquels s vaut 1. Cela 
signifie que ce modèle va s'intéresser à la loi de y|s = 1. Cette loi est toujours 
une loi de Bernoulli mais rien n’indique que son paramètre (son espérance) soit 
toujours pg(x). On désigne donc par p(x) = Pr,(y = 1|s = 1,x) le paramètre de 
cette loi et on s'intéresse au lien entre p,(x) et pa(x). Ce lien est présenté dans la 
propriété suivante dont on pourra faire la preuve dans l’exercice 15.2. 


Proposition 15.1 
On a 

an 

logit p, (£x) = logit pg (x) + log (=) : (15.2) 

To 
Cette propriété est très intéressante car elle implique que, à une constante additive 
près, les logit des probabilités pg(x) et p,(x) sont identiques. Cela signifie qu’il 
sera facile de récupérer les estimateurs de 5 à partir d’estimateurs calculés sur 
un échantillon rééquilibré. En effet, si on considère le modèle logistique pour les 
données rééquilibrées 

logit py (£) = 91 + 2x 


alors on déduit de la propriété précédente 
Ti 

Bi = 7 — log (2) et Pa = 7%. 
To 


Ainsi seule la constante est affectée par le rééquilibrage. De plus, la formule pré- 
cédente nous apprend comment corriger la constante. En effet, une fois l'EMV 4 
obtenu sur les données rééquilibrées, on peut estimer $2 par 42 et B1 par 


T 
ĝi cor = onl — log (=) . (15.3) 
To 


Remarque 

L’étude a été présentée pour une seule variable explicative. Rien ne change si on en 
a plusieurs, seule la constante est affectée par le rééquilibrage et elle se corrige de 
la même façon. Par ailleurs, cette méthode de rééquilibrage peut s’appliquer avec 
d’autres estimateurs que l'EMV, par exemple avec les estimateurs ridge, lasso... 
Le protocole est le même : le biais produit par le rééquilibrage est concentré sur 
la constante qui se corrige de la même façon. 


15.1.3 Exemples de schéma de rééquilibrage 


Nous présentons des cas d’application des résultats de la section précédente. Com- 
mençons par montrer empiriquement l'intérêt du rééquilibrage sur un exemple 
simulé, mais irréaliste en pratique. Nous présentons ensuite des situations plus 
concrètes avec les études cas/témoins et les méthodes de sous/sur-échantillonnage. 
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Cas simulé : retour à exemple initial 


On propose un schéma de rééquilibrage pour estimer les paramètres du modèle 2 
de Vintroduction (le modèle déséquilibré) 


logit ps(x) = bı + Box 


où x est uniforme sur [0,1], 6, = —1 et 62 = —6. Afin de comparer les perfor- 
mances des EMV calculés sur des données brutes (déséquilibrées) et rééquilibrées, 
on va considérer des échantillons aux caractéristiques identiques : méme nombre 
d’observations n = 200 et mêmes points de design 21,...,2,, de loi uniforme sur 
[0,1]. On calcule ainsi les EMV sur des échantillons 


1. « classique » : (x1,y1),..., (£n, Yn) tels que les y; sont générés selon des lois de 
Bernoulli pg(x;). On note 6; et B2 les EMV obtenus. 

2. « rééquilibré » : (æ1,y1,1),..., (£n, Yn, 1) Où les y; sont obtenus en faisant : 

a) s; <- 0 


b) Tant que s; = 0 

i. générer y; selon le modèle (15.1) 

ji. générer s; selon une loi de Bernoulli de paramètre Ty, 
c) Renvoyer yi. 


On utilise ici 


To = Pr(s; = lly; =0,2;) = 0.05 et 7, = Pr(s; = Lly; = 1,x;) = 0.95, 


et on note 4 et 42 les EMV calculés. 


On répète l’expérience 1 000 fois et on visualise les distributions des estimateurs 
sur la figure 15.3. 
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Fig. 15.3 — Distribution de B; — B; et 4; — bj pour j = 1 (gauche) et 2 (droite). 


Les proportions de 1 sont aux alentours de 5 % dans les échantillons initiaux 
contre 30 % dans les échantillons rééquilibrés. On remarque que l’estimateur de 
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P2 est nettement plus précis avec les échantillons rééquilibrés. Comme attendu, 
il possède beaucoup moins de variance. En revanche, on observe un biais élevé 
pour les estimateurs de B1 calculés sur les échantillons rééquilibrés. C’est normal 
puisqu'on n’a pas appliqué ici la correction (15.3). Le graphique 15.4 permet de 
visualiser la précision de l’estimateur corrigé. 


A 


A A 
By Yi Y1,cor 


Fig. 15.4 — Distributions de By — Bi, onl -= By et V1 cor = py. 


Cas pratique : études cas/témoins et sous/sur-échantillonnages 


Bien entendu, la maniére de générer les échantillons rééquilibrés que nous avons 
utilisée dans la simulation précédente ne peut étre que rarement appliquée en pra- 
tique. Il n’est en effet presque jamais possible de générer plusieurs valeurs de Y en 
chaque point de design. On peut néanmoins obtenir des données rééquilibrées et 
appliquer cette technique de correction de la constante dans certaines situations. 
Un exemple classique est celui des études cas/témoins trés souvent utilisées en 
épidémiologie. En effet dans ce type d’étude l’échantillonnage s’effectue en choisis- 
sant des individus dans la population des patients sains (y = 0) et atteints (y = 1) 
et en étudiant, pour les patients sélectionnés, différentes caractéristiques pouvant 
potentiellement expliquer la pathologie. Considérons par exemple le cas ot, pour 
une maladie rare, on souhaite modéliser l’influence du tabac sur la maladie. On 
sait que, pour cette pathologie, la probabilité d’étre atteint dans la population gé- 
nérale est de 5 sur 1 000. On réalise une étude cas/témoins en choisissant 250 cas 
(malade) et 250 témoins (non malade). Parmi les patients sélectionnés, on regarde 
si la patient est fumeur. Les données sont présentées dans le tableau suivant : 


Malade Non malade 
Fumeur 208 48 
Non fumeur 42 202 
Tableau 15.1 — Résultats de l’étude. 


On considère un modèle logistique permettant d’expliquer la pathologie par le fait 
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de fumer : 

logit(p,(x)) = 71 + Y2 lr=FUMEUR 
où p(x) désigne la probabilité d'être MALADE pour l'individu x. On peut estimer 
ce modèle avec les commandes suivantes 


> df <- data.frame (MALADE=c (208,42) ,NON MALADE=c(48,202), 
FUMEUR=c ( "OUI" ,"NON")) 
> model <- glm(cbind(MALADE, NON_MALADE) -FUMEUR,data=df, 
family=binomial) 
> coef (model) 
(Intercept)  FUMEUROUI 
-1.570598 3.036935 


et en déduire les probabilités d’étre atteint par la pathologie avec 


“ > newX <- data.frame (FUMEUR=c("QUI","NON") ) 

“ > rownames(newX) <- c("QUI","NON") 

> predict (model ,newdata=newX , type="response") 
OUI NON 

0.8125000 0.1721311 


Il faut être vigilant avec l’interprétation de ces probabilités. Elles estiment les 
probabilités d’étre malade dans une population ot on a autant de malades (cas) que 
d'individus sains (témoins). Ce n’est pas le cas dans la population générale puisque 
l’on sait que 5 individus sur 1 000 sont atteints. Si on souhaite une estimation pour 
la population générale, il faut corriger la constante en utilisant la propriété 15.1. 
Il suffit pour cela de calculer le rapport 71/79. Si on désigne par s la variable qui 
vaut 1 si un individu est dans l’échantillon et 0 sinon, on a 


Pr(y = js = 1) Pr(s = 1) 
Pr(y = j) | 
Comme nous avons choisi un échantillon équilibré, nous avons Pr(y = 1}s = 1) = 
Pr(y = 0|s = 1). Nous déduisons 
Ti Pr(y=0) 0.995 
To  Pr(y=1) 0.005 


Tj = Pr(s = 1|y= j) j=0,1. 


Ainsi, si on désigne par pg(x) la probabilité, pour un individu «x de la population 
générale, d’étre MALADE, on a 
0.995 


SAR 1,_ , 
ame! + 721l2=FUMEUR 


logit(pa(z)) = yı — log ( 
Il reste donc maintenant à corriger la constante manuellement avec 


| > betal_cor <- coef (model) [1]-log(0.995/0.005) 
| > beta2 <- coef (model) [2] 
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On peut ensuite en déduire, en utilisant le modèle, les probabilités d’être atteint 
par la pathologie en étant fumeur et non-fumeur respectivement : 


> exp(betai_cortbeta2)/(1+exp(betai_cortbeta2)) 
0.02131148 


> exp(betai_cor)/(1+exp(betali_cor)) 
0.001043738 


Un autre cas classique de rééquilibrage est celui du sous-échantillonnage ou du 
sur-échantillonnage. Considérons par exemple le cas où on dispose d’un échantillon 
de grande taille déséquilibré. Un rééquilibrage naturel revient à tirer avec ou sans 
remise avec les taux de sondage To et Tı des individus parmi les positifs et négatifs. 
Cela peut se faire aisément en R sur un tableau df dans lequel la variable à 
expliquer est Y à l’aide de la fonction sample : 


> tau <- c(0.05,0.95) 

> indO <- which(df$Y==0) 

> ind1 <- which(df$Y==1) 

> choix0 <- sample(ind0O, size=length(ind0O)+*tau[1], replace = F) 
> choixi <- sample(indi, size=length(ind1)*tau[2], replace = F) 
> 


dff <- rbind(df[choix0,], df[choix1,]) 


On peut alors ajuster le modèle logistique sur l’échantillon rééquilibré 


> mod <- glm(Y-., data=dff, family="binomial") 


et corriger la constante avec 


> gamma <- coef (mod) 
> gamma[1] - log(tau[2]/tau[1]) 


La correction de la constante peut se faire en utilisant la fonction offset 


> glm(Y-. + offset (rep(log(tau[2]/tau[1]), nrow(dff))), 
+ data=dff, family="binomial") 


On peut remarquer que, sous réserve d’avoir bien choisi 7) et 71, l'échantillon 
dff est effectivement équilibré mais possède moins d'observations que l’échantillon 
initial. Par conséquent, rien ne garantit que le modèle ajusté sur cet échantillon 
soit plus performant que le même modèle ajusté sur les données initiales. C’est 
pourquoi il est recommandé de toujours comparer les performances de ces modèles 
comme nous le ferons dans la section 15.3. Enfin la technique utilisée ici pour 
rééquilibrer a consisté à sous-échantillonner en tirant des observations au hasard 
parmi les positifs et négatifs. Il existe d’autres méthodes de ré-échantillonnage 
pour rééquilibrer qui sont présentées dans la section suivante. 
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15.2 Stratégies pour données déséquilibrées 


Le problème du déséquilibre a été présenté dans le cadre du modèle logistique. Il 
n’est cependant pas spécifique à ce modèle et on le trouve présent pour la majorité 
des algorithmes de prévision. Les méthodes générales qui permettent de répondre 
aux problèmes du déséquilibre consistent le plus souvent à choisir un critère bien 
approprié au déséquilibre et/ou à utiliser des méthodes de ré-échantillonnage pour 
rééquilibrer l’échantillon. Nous présentons ces méthodes dans cette partie. 

A partir de maintenant, nous nous plaçons dans le cas où la variable Y à valeurs 
dans {0,1} est déséquilibrée. La modalité 1 correspond aux positifs et la modalité 
0 aux négatifs. Pour fixer les idées, nous supposons que la modalité 1 est sous- 
représentée, c’est-à-dire que Pr(Y = 1) est beaucoup plus petit que Pr(Y = 0), 
ce qui est le cas le plus fréquent. Ainsi, en épidémiologie un positif correspond à 
un patient atteint par une pathologie, pathologie souvent rare, en marketing cela 
pourrait être un client qui a acheté un produit, dans le domaine du crédit bancaire 
un mauvais payeur, dans la détection de fraude un fraudeur... 


15.2.1 Quelques méthodes de rééquilibrage 


Le rééquilibrage s'effectue le plus souvent en supprimant des observations de la 
classe majoritaire (sous-échantillonnage ou undersampling) ou en créant de nou- 
velles observations pour la classe minoritaire (sur-échantillonnage ou oversam- 
pling). On ne peut bien entendu pas supprimer ou créer des observations n’importe 
comment. Il existe plusieurs stratégies, nous choisissons d’en proposer quelques- 
unes qui sont implémentées dans le package UBL (Utility Based Learning). Elles 
seront illustrées sur le jeu de données représenté sur la figure 15.5. 
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Fig. 15.5 — Les positifs sont figurés par des triangles et les négatifs par des ronds. 


Ce jeu contient deux variables explicatives X, et X> à valeurs dans [0,1]. La 
modalité 1 (sous-représentée) de Y se situe essentiellement dans deux bandes du 
carré [0, 1]? : à gauche (xı < 0.25) et en haut (a2 > 0.75). Le reste du carré contient 
essentiellement des 0. On a 20 observations de la classe 1 et 80 de la classe 0. 


362 Régression avec R 


Sur-échantillonnage ou oversampling 


Les méthodes de sur-échantillonnage proposent de créer de nouvelles observations 
de la classe minoritaire pour rééquilibrer les données. La méthode la plus naive, 
appelée random oversampling, consiste 4 dupliquer aléatoirement des observa- 
tions de cette classe. Elle est trés simple 4 mettre en ceuvre, il suffit d’indiquer 
le nombre de nouvelles observations que l’on souhaite créer. La fonction RandO- 
verClassifUBL du package permet d’effectuer un tel ré-échantillonnage. 
library (UBL) 
overi <- RandOverClassif (Y~., dat=df) 
over2 <- RandOverClassif (Y~., dat=df, C.perc=list("O"=1,"1"=2)) 
summary (over1$Y) 
Oo 1 
80 80 
> summary (over2$Y) 
O 1 
80 40 


MINT NTN 


On trouvera dans over1 et over2 les nouvelles données. Elles sont constituées 
des observations initiales auxquelles on a ajouté les observations dupliquées. Par 
défaut, le rééquilibrage est parfait : on duplique aléatoirement de manière à avoir 
les mêmes nombres de 0 et de 1. L’argument C. perc permet de contrôler le niveau 
de rééquilibrage en indiquant le coefficient multiplicatif que l’on souhaite appliquer 
aux proportions initiales. Par exemple dans over2 on conserve tous les 0 et on 
multiplie par 2 le nombre de 1. 

Le random oversampling est facile à mettre en œuvre mais possède l'inconvénient 
de diminuer la variabilité dans les données. Il existe d’autres algorithmes qui créent 
de nouvelles observations de la classe minoritaire sans se contenter de les dupliquer. 
Un des plus utilisés est la méthode SMOTE : Synthetic Minority Over-sampling 
TEchnique (Chawla et al., 2002). Cet algorithme revient à générer des observations 
entre les segments reliant les individus de la classe minoritaire à certains de leurs 
plus proches voisins de la même classe (voir algorithme 6). 


Algorithme 6 SMOTE 

Entrées : 

— (zi yi) i= 1,...,n les données: 

— m€ {1,...,n} tel que ym est dans la classe minoritaire ; 

— k un entier plus petit que le nombre d’individus de la classe minoritaire. 


1. Calculer les k plus proches voisins de £m parmi les x;,i = 1,...,n privés de 
£m qui sont dans la même classe que £n ; 
2. Choisir au hasard un des plus proches voisins calculés précédemment, on le 
note T(m); 
3. Générer aléatoirement un nouveau point x sur le segment reliant £m à £(m)- 
Sortie : la nouvelle observation x à laquelle on associe le label minoritaire. 
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Le paramètre k doit bien entendu être choisi par l'utilisateur. Il sera forcément lié 
au nombre d’observations que l’on a dans la classe minoritaire. Une petite valeur 
de k produit de petits segments, les nouveaux points sont donc proches des points 
existants et inversement pour une grande valeur de k. Sur R, on peut utiliser la 
fonction SmoteClassif de UBL : 


> set.seed(1234) 

> smotei <- SmoteClassif(Y-., dat=df, k=4) 

> smote2 <- SmoteClassif (Y~. ,dat=df,k=4, C.perc=list("0"=1,"1"=2)) 
> summary (smote1$Y) 

Oo 1 

50 50 

> summary (smote2$Y) 

Oo 1 

80 40 


Ici encore le paramètre C.perc permet de contrôler le niveau de ré-équilibrage. 
Par défaut, il est parfait (autant de 0 que de 1 et chaque niveau possède n/2 
observations). C’est-a-dire que pour smotel : 

— on génère 30 nouvelles observations de la classe minoritaire en appliquant l’al- 
gorithme 6 aux 20 individus de la classe 1 puis en le ré-appliquant à 10 individus 
choisis au hasard ; 

— on diminue la classe majoritaire en supprimant aléatoirement 30 individus 
parmi les 80. 
Dans le second cas (smote2), 20 nouvelles observations de la classe minoritaire 
sont générées en appliquant l’algorithme 6 aux 20 individus de cette classe, la 
classe majoritaire reste inchangée. La figure 15.6 représente les deux nouveaux 
échantillons obtenus. 
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Fig. 15.6 — Oversampling par smote : les nouvelles observations sont entourées. 
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Sous-échantillonnage ou undersampling 


Contrairement aux méthodes précédentes, les algorithmes de sous-échantillonnage 
suppriment des observations de la classe majoritaire. L’équivalent du random over- 
sampling est le random undersampling qui élimine aléatoirement des individus 
de la classe majoritaire. Cette approche est simple a mettre en ceuvre, il suffit 
d’indiquer les proportions souhaitées pour chaque classe de l’échantillon final. On 
peut par exemple les spécifier dans argument C.perc de la fonction RandUn- 
derClassif : 


> underi <- RandUnderClassif (Y~., dat=df) 
> under2 <- RandUnderClassif (Y~., dat=df, 
C.perc=list("0"=0.5,"1"=1)) 
> summary (under1$Y) 
Oo 1 
20 20 
> summary (under2$Y) 
O 1 
40 20 


l 


Par défaut on supprime autant d’individus que nécessaire pour atteindre l’équilibre 
parfait. Dans le second cas, on se contente de supprimer la moitié des 0. 

Une autre manière de procéder est de repérer les observations de la classe ma- 
joritaire qui se situent proches de zones composées d’observations minoritaires. 
L’algorithme de Tomek (Tomek, 1976) identifie de tels individus à partir de la 
notion de lien de Tomek (Tomek link). 


Définition 15.1 

Soit (x1,y1),...,(Æn; Yn) n observations à valeurs dans IR? x {0,1}. Une paire 
(2;,2;),1< 149 <n telle que y = 0 et y; = 1 est un T-link si pour tout k 
différent de i et j on a 


lzi xl < z: al et [aix] < |z; — eel. 


Un T-link est ainsi constitué de deux observations, une de chaque groupe, qui 
sont plus proches voisins entre elles : on parle de plus proches voisins mutuels. 
Rééquilibrer par l’algorithme de Tomek revient à identifier les paires qui ont un T- 
link et à supprimer la paire entière ou uniquement l'individu de la classe majoritaire 
de la paire. On utilise la fonction TomekClassif : 


> tomeki <- TomekClassif(Y-.,dat=df) 
> tomek2 <- TomekClassif(Y-.,dat-=df,rem="maj") 


Les index des individus supprimés se trouvent dans 


Données déséquilibrées 365 


> tomeki[[2]] 
[1] 1 7 

> tomek2[[2]] 
[1] 1 69 100 16 


Par défaut l’ensemble des paires qui sont des T-link sont supprimées. L’option 
rem="maj" permet de ne supprimer que les individus de la classe majoritaire qui 
ont un T-link. Les points supprimés par les algorithmes sont représentés sur la 
figure 15.7. Les échantillons obtenus, c’est-à-dire le nuage initial sans les points 


12 69 14 100 16 17 


entourés, sont sur la figure 15.8. 
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Fig. 15.8 — Oversampling par Tomek : échantillons obtenus. 
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Nous remarquons que, contrairement aux autres approches, cette méthode ne per- 
met pas de contrôler les degrés de rééquilibrage. Il est par exemple impossible de 
demander à l’algorithme d’avoir autant de 0 que de 1. Elle va néanmoins permettre 
d'identifier des individus d’un groupe isolés autour d'individus de l’autre groupe, 
et donc de clarifier les frontières entre les deux classes. 
Remarque 
— Les algorithmes SMOTE et Tomek reposent sur des calculs de plus proches 
voisins qui nécessitent de définir une distance. Sur l’exemple que nous avons 
utilisé, les données étant dans R?, nous avons utilisé la distance euclidienne. Il 
est bien entendu possible d'utiliser d’autres distances, y compris des distances 
spécifiques à des variables qualitatives. Le choix de la distance peut s’effectuer à 
l’aide de l’argument dist des fonctions présentées. 
— L'ensemble des méthodes de rééquilibrage présentées est loin d’être exhaustif. 
Il existe d’autres algorithmes comme CNN (Condensed Nearest Neighbors) ou 
ENN (Edited Nearest Neighbors)... Ces méthodes sont également implémentées 
dans le package UBL. 


15.2.2 Critères pour données déséquilibrées 


Les techniques de rééquilibrage présentées dans la section précédente permettent de 
construire un nouvel échantillon (un par technique) sur lequel on va estimer un (ou 
plusieurs) modèle(s). Chaque technique va ainsi donner un (ou plusieurs) modèle(s) 
estimé(s) qu’il est maintenant nécessaire de comparer. Toutes les techniques de 
comparaison entre différents modéles vues au chapitre précédent (p. 321) peuvent 
donc être utilisées ici. Les critères pour les scores tels que les courbes ROC ou lift ne 
nécessitent pas d’ajustement particulier en présence de données déséquilibrées. Par 
contre les critéres mesurant la performance de régles de classification (voir section 
14.2, p. 323) comme Vaccuracy ne sont pas forcément adaptés ici et il existe des 
critères spécifiques les complétant (ou les remplaçant). Nous les présentons ici. 
On rappelle qu’une règle de prévision est représentée par une fonction g : IR? > 
{0,1} qui renverra la prévision g(x) pour une nouvelle observation x € R?. Les 
critères sont généralement calculés à partir d’une table de confusion qui confronte 
les prévisions faites par l’algorithme g aux valeurs observées de Y : 


Prévu 
Vrai g(X)=0 | gx) =1 
Y =0 VN FP 
Y=1 FN VP 


Tableau 15.2 — Table de confusion. 


Le terme VN désigne ici le nombre de vrais négatifs, c’est-à-dire le nombre d’in- 
dividus pour lesquels la régle a prédit 0 et ot on a effectivement observé 0. Cette 
table, qui s’obtient le plus souvent à l’aide de méthodes de ré-échantillonnage de 
type validation croisée (voir section 14.2), permet de visualiser la capacité à bien 
prédire de la régle g dans les populations positives et négatives. 
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Afin d’illustrer et comparer les différents critères, nous considérons l’exemple sui- 
vant où, pour un même jeu de données, on dispose de deux algorithmes de prévi- 
sion donnant lieu à deux vecteurs de prévision P1 et P2 (les données à prévoir sont 
dans Y). Les tables de contingence sont présentées ici : 


> table(Y,P1) 
Pi 
Y Oo 1 
0 468 O 
dl, ed. al 
> table(Y,P2) 
P2 
Y Oo 1 
0 407 61 
1 4 28 


Ces données contiennent 32 positifs contre 468 négatifs. On remarque que l’algo- 
rithme 1 a tendance à quasiment toujours prédire la classe sur-représentée tandis 
que le 2 parvient à identifier une partie plus importante des individus de la classe 
sous-représentée (28 sur 32). L’algorithme 2 peut donc être préférable au 1 si 
Vobjectif est d’identifier des positifs. 

Nous commençons par étudier un des critères les plus couramment utilisés : l’accuracy. 
On rappelle qu’il est défini par 


Acc = Pr(g(X) = Y) 


et estimé selon 

— VN+VP 

Acc = —————. 

n 

Pour l’exemple considéré, il est facile de voir que le premier algorithme est privilégié 
par l’accuracy puisqu'il réalise 469 bonnes prévisions contre 435 pour le second. 
Cela ne signifie pas pour autant que l’algorithme 1 est meilleur puisqu'il ne détecte 
qu’un seul positif. En effet, l’accuracy n’est pas un bon critère pour mesurer la 
capacité à bien identifier la population sous-représentée. On peut l'expliquer assez 
facilement en remarquant que 


Acc = Pr(g(X) = 1|Y = 1) Pr(Y = 1) + Pr(g(X) =0|Y = 0) Pr(Y = 0). 


Ce critère s’obtient donc en pondérant la sensibilité Pr(g(X) = 1|Y = 1) et la 
spécificité Pr(g(X) = 0|Y = 0) par les probabilités a priori Pr(Y = 1) et Pr(Y = 
0). Ainsi dans le cas où les négatifs sont sur-représentés (Pr(Y = 0) grand), ce 
critére a tendance a privilégier la spécificité et donc des régles qui identifient bien 
les négatifs. La règle g(a) = 0Vx € R? peut par exemple se révéler très performante 
dans ce cas-là pour l’accuracy alors qu’elle ne permet pas d’identifier le moindre 
positif. Une manière assez évidente de corriger l’accuracy est de donner le même 
poids à la sensibilité et à la spécificité. On obtient alors la balanced accuracy : 
Pr(g(X) = 1]Y = 1) + Pr(g(X) = 0]Y = 0) 


Balanced Acc = 5 : 
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Ce critére varie entre 0 (régle qui prédit l’inverse de ce qui est observé) et 1 
(prévisions parfaites). Nous remarquons que le poids de la classe sur-représentée 
n'est pas pris en compte dans le critère, d’où l'intérêt de l’utiliser lorsque les 
données sont déséquilibrées. Sur l’exemple, la balanced accuracy vaut 0.516 pour 
Valgorithme 1 et 0.872 pour l’algorithme 2 qui est donc privilégié. 


Remarque 

La balanced accuracy donne le méme poids a la sensibilité et a la spécificité. Dans 
certains cas, on dispose d’une information auxiliaire qui permet de quantifier l’im- 
portance de ces deux critères. Si on sait par exemple qu'il est 5 fois plus important 
de détecter les positifs que les négatifs, il est alors facile de prendre en considé- 
ration cette information en définissant un nouveau critère qui prendra en compte 
ces poids, par exemple 


5 Pr(g(X) = 1|Y = 1) + Pr(g(X) = 0|Y = 0) 
. : 


Dans le même ordre d’idée que la balanced accuracy qui est la moyenne arithmé- 
tique entre la sensibilité et la spécificité, le F;-score est défini comme la moyenne 
harmonique entre la précision, qui mesure la capacité a bien détecter les positifs 
parmi les positifs prédits, et le recall (ou spécificité) qui mesure la capacité à bien 
prédire les positifs : 


F2 Precision x Recall 


Precision + Recall’ 


Precision = Pr(Y = 1|g(X)= 1) et Recall = Pr(g(X) = 1|Y =1). 


Ici encore, ce critére ne prend pas en compte les tailles des classes et est donc 
moins sensible à un problème de données déséquilibrées. Le Fi-score se concentre 
sur la capacité à bien identifier les positifs (Recall), en évitant de trop en prédire 
(Precision). Il varie entre 0 (mauvaise identification des positifs) et 1 (identification 
parfaite). Sur l’exemple, on a un F,-score de 0.060 pour l’algorithme 1 contre 0.463 
pour le second qui est donc privilégié. Il est important de remarquer que, contrai- 
rement à l’accuracy et à la balanced accuracy, le F\-score n’est pas symétrique 
vis-à-vis du choix que l’on a fait pour définir les positifs. En effet, si on inverse les 
1 et les 0, la valeur du Fi-score change. Il est donc crucial de bien définir la classe 
des positifs en fonction de ce que l’on souhaite évaluer. 
La balanced accuracy et le Fi-score sont définis à partir de moyennes entre des 
probabilités qui mesurent le capacité à bien détecter les positifs et/ou négatifs. Le 
kappa de Cohen (Cohen, 1960) est défini différemment, il propose de comparer 
— la probabilité de bien classer (accord), c’est-à-dire l’accuracy que l’on note ici 
Pr(a) ; 
— à une probabilité de bien classer de façon aléatoire que l’on note Pr(e). Le 
terme aléatoire est à prendre dans le sens où on suppose que la prévision g(X) 
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est indépendante de l’observation Y : 


Pr(e) = Prai(g(X) =Y) 
= Pr(g(X) = 0) Pr(Y = 0) + Pr(g(X) = 1) Pr(Y = 1). 


Le « de Cohen est alors défini par 


_ Pr(a) — Pr(e) 
1 — Pr(e) 


Cette définition peut paraître étrange et il convient de l’expliquer afin de com- 
prendre en quoi ce critère peut être intéressant pour des données déséquilibrées. Re- 
marquons tout d’abord que si g est parfaite, c’est-à-dire g(X) = Y, alors l’accuracy 
Pr(a) vaut 1 tout comme le kappa de Cohen et on ne pourra pas faire mieux. 
Plaçons-nous maintenant dans un cas de données (très) déséquilibrées, c’est-à-dire 
avec Pr(Y = 0) grand et considérons la règle qui prédit toujours 0, cette règle 
n’identifie donc pas les positifs. On a alors 


Pr(a) = Pr(Y =0) et Pr(e)=Pr(Y =0). 


Dans ce cas, l’ accuracy est élevée (égale à Pr(Y = 0)) tandis que le kappa de Cohen 
sera nul. D’ot l'intérêt d’utiliser ce critère lorsque les données sont déséquilibrées. 
Sur l’exemple de cette partie, le kappa de Cohen vaut 0.057 pour l’algorithme 1 
contre 0.407 pour l’algorithme 2 qui est donc privilégié pour ce critère. 

Les critéres présentés dans cette partie peuvent étre directement estimés a partir 
d’une table de contingence ou de deux vecteurs qui contiennent les valeurs prédites 
et observées. Nous proposons d’utiliser le package yardstick qui possède des 
fonctions spécifiques pour calculer un très grand nombre de critères. On peut 
par exemple obtenir l’accuracy, la balanced accuracy, le F\-score et le kappa de 
Cohen avec les fonctions accuracy, bal_accuracy, f_meas et kap. Nous les 
calculons ici pour le vecteur de prévision P2 : 


> library (yardstick) 
> df <- data.frame(Y,P2) 
> multi_metric <- metric_set(accuracy,bal_accuracy,f_meas,kap) 
> multi_metric(df,truth=Y,estimate=P2,event_level="second") 
# A tibble: 4 x 3 
.metric .estimator .estimate 
<chr> <chr> <db1l> 
1 accuracy binary 0.87 
2 bal_accuracy binary 0.872 
3 f_meas binary 0.463 
4 kap binary 0.407 


Nous avons utilisé l’option event_level="second" pour préciser que la classe 
des positifs correspond au second niveau de Y. Nous avons vu que ce choix est 
important pour certains critères comme le F-score. 
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15.3 Choisir un algorithme de rééquilibrage 


La section précédente a proposé des algorithmes qui permettent de rééquilibrer 
les échantillons ainsi que des critéres adaptés aux données déséquilibrées. Bien 
entendu, la vraie question pour le statisticien est de trouver le « meilleur » algo- 
rithme permettant de répondre à son problème avec un échantillon présentant des 
données déséquilibrées. Il doit donc faire des choix entre les différentes stratégies 
possibles. Ces choix sont difficiles car prendre en compte des données déséquili- 
brées n’est qu’une étape parmi d’autres dans un projet de sciences des données ; 
citons par exemple 

— la gestion des données manquantes ; 

— le choix de variables : faut-il enlever ou non des variables qui apporteraient 

une méme information ? 

— le choix d’un algorithme de rééquilibrage, il en existe plein et de plus ces 

algorithmes dépendent de paramètres qu’il faut calibrer... 

— le choix d’un algorithme de classification (logistique, ridge, lasso...) et d’une 

manière de choisir les paramètres de cet algorithme (validation croisée...). 
Cette partie n’a bien évidemment pas vocation à donner un protocole précis pour 
mener à bien un projet de data-science car un tel protocole n’existe pas. De plus, 
pour réussir son projet il est nécessaire de bien connaître les données et l’objectif, 
ce qui change à chaque projet. Néanmoins, pour atteindre cet objectif il est souvent 
nécessaire de faire des essais, c’est-à-dire comparer des procédures. Nous proposons 
donc ici de donner des pistes pour le choix de l’algorithme de rééquilibrage. 


15.3.1 Rééquilibrage et validation croisée 


Etant donné D, = {(x1,y1),...,(n, Yn)} où les (x;, yi) sont à valeurs dans R?” x 
{0,1} on rappelle qu’un algorithme de prévision est représenté par une fonction g 


g : R? x (R? x {0,1})” >R (15.4) 


qui à un nouvel x € R? va renvoyer la prévision g(x, Dn). La notation est un peu 
lourde mais elle permet de visualiser que cette prévision est calculée à partir des 
données D,,. Cette prévision peut concerner le groupe (0 ou 1) ou le score (un réel). 
Nous insistons sur le fait que l'algorithme g doit inclure toutes les étapes présentées 
précédemment (données manquantes, rééquilibrage, régression logistique, choix de 
variables...). Prenons l’exemple où on souhaite combiner le “random oversampling” 
avec la régression logistique, la prévision g(x, Dn) est alors obtenue 


1. en appliquant le random oversampling sur D,. On va donc obtenir un nouvel 
échantillon rééquilibré (41, 91),..-,;(Zm; Gm) pas forcément de taille n; 


2. en estimant les paramètres du modèle logistique 


logit pe (x) = bo + Bia, +... + BpTp 


avec l’échantillon rééquilibré. 


Données déséquilibrées 371 


Le score prédit sera alors 


(edi st En) 
1 + exp(Bo + ızı +... + Bptp) 


Il est ainsi possible (et facile) de construire un grand nombre d’algorithmes. Pour 
les comparer, on utilise généralement des critères comme ceux présentés dans la 
section 15.2.2 (accuracy, balanced accuracy, kappa de Cohen, AUC...). Bien en- 
tendu le choix du critére est capital et dépend des objectifs métiers (importance 
de détecter les positifs pour le problème considéré par exemple). Il est générale- 
ment recommandé d'utiliser plusieurs critères afin de visualiser la robustesse des 
algorithmes vis-à-vis de ces critères. Mathématiquement ces critères sont toujours 
calculés à partir de la confrontation des valeurs observées et prédites par l’algo- 
rithme. Un critère ou risque peut donc être représenté par une fonction 


R:R"xR">R (15.5) 


m An 


(yt, 97) > Ry? ? ÿ1) 


ou y? = (Y1,..., Yn) désigne le vecteur des valeurs observées et 97 = (ÿ1,...,Ün) 
celui des valeurs prédites. Comme nous l’avons vu dans les chapitres 10.1 et 14, 
les prévisions doivent se calculer à l’aide de méthodes de ré-échantillonnage. Nous 
rappelons l’algorithme de validation croisée dans ce contexte. 


Algorithme 7 Validation croisée pour données déséquilibrées 


Entrées : 
— Dy = {(x1,y1),..., (Xn; Yn)} les données ; 
— {T,...,Z«%} une partition de {1,...,n} en K blocs; 
— gun algorithme de prévision comme dans (15.4); 
— R un risque comme dans (15.5). 
Pour k=1,...,K 
1. Poser Zirain = {1,...,n}\7x et Trest = Tk. 
2. Construire l’algorithme de prévision sur Dtrain = {(@i, yi) : à © Terain}, on le 
note gx(.) = g(., Dirain). 
3. En déduire §; = gg(x;) pour chaque à € Trest- 
Sortie : R(y7, 97). 


Plaçons-nous dans le cas où l’algorithme comporte une étape de rééquilibrage. 
Nous remarquons qu’à chaque itération cette étape de rééquilibrage ne doit être 
appliquée qu’à l’échantillon d'apprentissage Dérain, pas à l'échantillon test. Ceci est 
logique dans la mesure où, en pratique, l’algorithme choisi sera appliqué sur des 
nouvelles données qui ne seront pas rééquilibrées. C’est pourquoi il est important de 
ne pas rééquilibrer les échantillons tests lorsqu'on cherche à évaluer la performance 
d’un algorithme. 
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15.3.2 Application aux données d’images publicitaires 


On reprend les données qui ont été présentées dans la section 14.6. Nous avons 
supprimé les 4 variables qui contenaient des données manquantes, on se retrouve 
en présence de 3 279 individus et 1 554 variables explicatives. On fait un résumé 
de la variable a expliquer 


| > summary(ad.data1$Y) 
ad. nonad. 
| 459 2820 


et on remarque qu’elle comporte 14 % d’individus qui correspondent à des publici- 
tés. Afin d’utiliser les mêmes notations que précédemment, on recode les modalités 
de Y en 0-1 : 


I > library (tidyverse) 

| > ad.datai <- ad.datal %>% 
+  transform(Y=fct recode(Y, "O"="nonad.", "1"="ad.")) %>% 
+  transform(Y=fct_inseq(Y)) 


On propose de comparer des algorithmes de prévision issus d’une régression logis- 
tique avec maximum de vraisemblance, ridge et lasso combinés avec les 4 méthodes 
de rééquilibrage présentées dans la section 15.2.1 : random oversampling, smote, 
random undersampling et Tomek. De plus, afin d'évaluer l’éventuelle pertinence du 
rééquilibrage, nous construirons également les algorithmes sur les données brutes 
(sans rééquilibrage). On propose donc de comparer 15 algorithmes de prévision. 
Nous allons effectuer la comparaison à l’aide d’une validation croisée 10 blocs pour 
déduire les estimations des critères présentés dans la section 15.2.2. On définit tout 
d’abord les 10 blocs de la validation croisée : 


| > set.seed(1234) 
| > bloc <- sample(1:10, nrow(ad.datal), replace=TRUE) 
| > table (bloc) 


Puis on définit une liste SCORE de longueur 5 (autant que d’algorithmes de ré- 
équilibrage) dont chaque élément contient un dataframe avec les probabilités que 
Vimage soit une publicité estimée par chaque méthode (3 méthodes, donc 3 co- 
lonnes) : 


> score <- data.frame(matrix(0, nrow=nrow(ad.datai), ncol=3)) 
> names(score) <- c("logit", "lasso", "ridge") 

> SCORE <- list(brute=score, over=score, smote=score, 

+ under=score, tomek=score) 


On peut maintenant faire la validation croisée. Nous allons faire une boucle sur k 
et pour chaque valeur de k entre 1 et 10: 
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> for (k in 1:10) { 


1. on détermine les échantillons d’apprentissage et de test : 


+ 
+ 
+ 
T 


ind.test <- bloc== 

dapp <- ad.data1[!ind.test, ] 

dtest <- ad.datailind.test, ] 

X.test <- model.matrix(Y~., data=dtest)[, -1] 


2. on rééquilibre les données d’apprentissage uniquement : 


ech.app <- list (morm=dapp, 
over=RandOverClassif (Y~., dat=dapp), 
smote=SmoteClassif (Y~., dat=dapp), 
under=RandUnderClassif (Y~., dat=dapp) , 
tomek=TomekClassif (Y~., dat=dapp) [[1]]) 

mod.mat.list <- function(df){ model.matrix(Y~., data=df)[,-1] } 

Y.list <- function(df) df$Y 

X.app <- lapply(ech.app, mod.mat.list) 

Y.app <- lapply(ech.app, Y.list) 


Les 5 types d’échantillons (un par méthode de rééquilibrage) sont regroupés dans 
2 listes X.app et Y.app contenant les variables explicatives et à expliquer respec- 
tivement ; 


3. on entraîne les modèles logistique, lasso et ridge sur tous les échantillons d’ap- 
prentissage. Le paramètre de régularisation des méthode lasso et ridge est sé- 
lectionné en faisant une validation croisée 10 blocs, c’est-à-dire que l'échantillon 
d'apprentissage est découpé en 10 blocs pour choisir ce paramètre : 


tor (J ia LEH 
lasso <- cv.glmnet(X.app[[j]], Y.app[[j]], family="binomial") 
ridge <- cv.glmnet(X.app[[j]], Y.app[[j]], family="binomial", 
alpha=0) 
logit <- glm(Y~., data=ech.app[[j]], family="binomial") 


4. on calcule enfin les probabilités estimées que l’image soit une publicité pour 
chaque individu de l'échantillon test : 


+ + + + + 


SCORE[L[j]] [ind.test,] <- data.frame( 

logit=predict.glm(logit, newdata=dtest, type="response"), 

lasso=as. vector (predict (lasso ,newx=X.test,type="response")), 

ridge=as.vector (predict (ridge ,newx=X.test,type="response") ) ) 
} # fin de boucle j 
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+ } # fin de boucle k 


On assemble tous les résultats dans un seul data-frame de 4 colonnes qui contien- 
dra : 

— le nom de l’algorithme de rééquilibrage (colonne meth) ; 

— les valeurs observées de Y pour chaque individu (0 ou 1, colonne obs) ; 

— Valgorithme de prévision (logistique, lasso, ridge, colonne algo) ; 

— la probabilité que l’image soit une publicité estimée par l'algorithme (colonne 

score). 


> mat.score <- bind_rows(brutes=SCORE[[1]], 

fh over=SCORE[[2]], 

fi smote=SCORE[[3]] , 

+ under=SCORE[[4]], 

+ tomek=SCORE[[5]], .id="meth") %>% 
+  mutate(obs=rep(ad.datai$Y, 5)) %>% 

+  pivot_longer(c(logit, lasso, ridge), 

+ names_to="algo", values_to="score" 


On déduit de cette matrice tous les critéres de performance présentés dans la 
section 15.2.2. On obtient par exemple les AUC du tableau 15.3 avec 


> library(yardstick) #pour la fonction roc_auc 
> mat.score #>% group_by(meth,algo) %>% 


+ roc_auc(truth=obs,estimate=score,event_level="second") %>% 
+ pivot_wider(-c(.metric,.estimator) ,names_from=algo, 
+ values_from=.estimate) 


meth lasso logit ridge 
brutes 0.943 0.831 0.980 
over 0.973 0.790 0.977 
smote 0.973 0.680 0.977 
tomek 0.950 0.763 0.979 
under 0.956 0.787 0.964 
Tableau 15.3 — AUC. 


La plupart des autres critéres (accuracy, kappa de Cohen...) nécessitent d’avoir 
les groupes prédits par les algorithmes. Ces prévisions s’obtiennent en fixant un 
seuil s entre 0 et 1 et en prédisant « groupe 1 » si la probabilité est plus grande 
que s, 0 sinon. On peut utiliser les méthodes de choix de seuil présentées dans la 
section 14.4. Par souci de concision, nous présentons les résultats pour le seuil de 
0.5. On ajoute une nouvelle colonne prev qui contiendra les groupes prédits : 


| mat.score <- mat.score %>% mutate (prev=as. factor (round (score) ) ) 
| 
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On trouvera les nouveaux critères obtenus à partir de ces prévisions dans les ta- 
bleaux 15.4-15.7. Les trois meilleures valeurs sont affichées en gras. Ces tableaux 
s’obtiennent sur R en adaptant le code précédent. Il faudra par exemple remplacer 
roc_auc par kap et estimate=score par estimate=prev pour calculer le tableau 


set. 


meth lasso logit ridge meth lasso logit ridge 
brutes 0.969 0.886 0.970 brutes 0.898 0.832 0.900 
over 0.961 0.847 0.963 over 0.931 0.806 0.935 
smote 0.960 0.699 0.960 smote 0.933 0.680 0.933 
tomek 0.969 0.818 0.970 tomek 0.896 0.797 0.900 
under 0.954 0.808 0.955 under 0.921 0.792 0.899 
Tableau 15.4 — Accuracy. Tableau 15.5 — balanced accuracy. 
meth lasso logit ridge meth lasso logit ridge 
brutes 0.879 0.650 0.884 brutes 0.862 0.584 0.867 
over 0.864 0.579 0.873 over 0.842 0.491 0.851 
smote 0.863 0.378 0.862 smote 0.839 0.224 0.838 
tomek 0.876 0.542 0.882 tomek 0.859 0.440 0.866 
under 0.843 0.529 0.837 under 0.816 0.422 0.811 
Tableau 15.6 — F score. Tableau 15.7 — Kappa de Cohen. 


Il n’est pas facile de synthétiser tous ces résultats. Plusieurs tendances semblent 
néanmoins se dégager : 

— le modèle logistique est clairement moins performant que les algorithmes ridge 
et lasso. Nous l’avions déjà remarqué dans la section 14.6. Cela s’explique par le 
nombre important de variables dans le modèle. Les méthodes régularisées sont 
plus pertinentes dans ce contexte, 

— les performances des régressions ridge et lasso sont proches, avec une préfé- 
rence pour le ridge, 

— l'apport des méthodes de rééquilibrage est discutable sur cet exemple. On re- 
marque en effet que les algorithmes appliqués sur les données brutes (non rééqui- 
librées) sont performants. Le rééquilibrage peut néanmoins améliorer certains cri- 
tères comme la balanced accuracy pour lequel les méthodes de sur-échantillonnage 

(random oversampling et smote) permettent d'améliorer. 
Nous terminons en présentant quelques résultats pour d’autres valeurs de seuil. 
En effet, nous avons ici calculé la plupart des critères en utilisant le seuil de 
0.5 pour déduire les groupes prédits à partir des valeurs de score. Il est souvent 
intéressant de visualiser ces critères pour différentes valeurs de seuil, on utilise alors 
des grilles de score qui consistent à présenter les valeurs de critère en fonction de 
différentes valeurs de seuil. Nous présentons dans le tableau 15.8 la grille de score 
de la méthode ridge appliquée sur les données rééquilibrées par l’algorithme smote. 
Cette grille peut aider l'utilisateur à choisir le seuil de prévision en fonction des 
objectifs métiers. 
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seuil sens spec Acc  bal.acc F1 kappa 
0 0.000 1.000 0.140 0.500 0.246 0.000 
0.1 0.671 0.955 0.711 0.813 0.480 0.348 
0.2 0.745 0.932 0.771 0.839 0.533 0.416 
0.3 0.851 0.911 0.860 0.881 0.645 0.566 
0.4 0.918 0.885 0.913 0.901 0.740 0.690 
0.5 0.983 0.843 0.964 0.913 0.867 0.846 
0.6 0.991 0.797 0.964 0.894 0.861 0.841 
0.7 0.995 0.739 0.959 0.867 0.834 0.811 
0.8 0.997 0.672 0.952 0.835 0.796 0.770 
0.9 0.999 0.562 0.938 0.780 0.717 0.685 
1 1.000 0.000 0.860 0.500 0.000 
Tableau 15.8 — Grille de score pour l’algorithme ridge combiné avec la méthode 
smote. 


15.4 Exercices 


Exercice 15.1 (Critères pour un exemple de données déséquilibrées) 
1) Générer un vecteur d'observations Y de taille 500 selon une loi de Bernoulli de para- 
mètre 0.05. 
2) Générer un vecteur de prévisions P1 de taille 500 selon une loi de Bernoulli de para- 
mètre 0.005. 
3) Générer un vecteur de prévision P2 de taille 500 tel que 


L(P2|Y = 0) = B(0.10) et £(P2|Y = 1) = B(0.85). 


4) Calculer les tables de contingence de P1 et P2 à l'aide de table. 

5) Pour P2, calculer, avec les fonctions usuelles de R l' accuracy, le recall et la précision. 
6) Même question pour le F\-score et le kappa de Cohen. 

7) Retrouver ces indicateurs à l'aide de la fonction multi_metric du package yardstick 
puis comparer les prévisions P1 et P2. 


Exercice 15.2 (Echantillonnage rétrospectif) 
Démontrer la formule (15.2). 


Exercice 15.3 (Rééquilibrage) 
Les fichiers dd_exo3_1.csv, dd_exo3_2.csv et dd_exo3_3.csv contiennent chacun n = 
1000 observations d'une variable binaire Y et de deux variables continues X 1 et X2. On veut 
expliquer Y par Xı et X2 à chaque fois. 
1) Comparer les distributions de Y pour ces trois jeux de données et visualiser les observa- 
tions. 
2) Séparer les trois jeux de données en un échantillon d'apprentissage et un échantillon 
test. On mettra deux tiers d'observations dans l'échantillon d'apprentissage. 
3) Ajuster une régression logistique sur les 3 échantillons d'apprentissage, calculer les labels 
prédits sur les échantillons test (avec un seuil de 0,5) et estimer les différents indicateurs de 
la section 15.2.2 à l'aide de la fonction confusionMatrix. On prendra en compte l'interaction 
entre X1 et Xə dans le modèle. 
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4) Rééquilibrer les données dd_exo3_3.csv en utilisant des techniques de la section 15.2.1. 
Visualiser les nouveaux échantillons obtenus. 
5) Recalculer les différents critéres sur les échantillons rééquilibrés. 


Exercice 15.4 (Rééquilibrage et information de Fisher) 
Nous nous plaçons dans le cadre d'un modèle logistique où Y|X = x suit une loi exponen- 
tielle de densité fo(y|x). Nous supposons l'existence d'une variable binaire S (modélisant 
le rééquilibrage) dont la loi conditionnelle S|Y ne dépend pas de X et dont sa densité h 
n'est pas fonction de @. L’échantillon non rééquilibré est constitué de n observations iid de 
(Yi, Si, Xi) et celui rééquilibré des observations où S; = 1. 
1) Vérifier intuitivement que la situation de sous-échantillonnage proposé en page 364 peut 
être approximée par ce schéma si la taille du sous échantillons des Y = 0 (dans lequel on 
sélectionne) est grande. 
2) Notons g la densité conditionnelle du couple (Y, S|X) (dont nous supposons l'existence) ; 
retrouver que g(y,s|x) = h(sly) fo(ylx) et déduire que la log-vraisemblance des données 
augmentées (Y;, S;) vaut 


L*(0) = L(0) + 5 log h(silļy:). 


où L(0) dénote la log-vraisemblance des données. 
3) En déduire en dérivant 2 fois par rapport à 0 que 
T}(0) = In(6). 
4) En notant m(s|x) la densité de S|X et avec g(y, s|x) = L(y|s, £)m(s|x) montrer que 
L*(0) = 5 logl(y|s = 1,2) + 5 log l(y|s = 0, £) + Ÿ log m(s:|z:). 
i€{i]S;=1} i€{i]S;=0} i=1 


5) En déduire en dérivant 2 fois par rapport à 0 que 


: a? Ca 
I) =—s— D. loœelys=lr)-5 D. logl(yls = 0,2) 
ie{ilS;=1} ie{ilS;=0} 
a 
- JE X log m(s:|x:). 
i=1 


S) respectivement. 


Notons ces 3 informations de Fisher J,,(0|S = 1), In(0|S = 0) et In(0, 
1,(6|S = 1), In(0|S = 


) 

6) Parmi toutes les informations de Fisher introduites, 7% (0), In(@), 
0) et In(6, S), 

— quelle est celle qui correspond à l'échantillon ? 

— quelle est celle qui correspond à l'échantillon après rééquilibrage ? 
7) En supposant toutes les conditions réunies, chaque information de Fisher converge 
(quand n — oo) vers une matrice définie positive. Vérifier sans calcul l'assertion suivante : 
Asymptotiquement, pour l'inférence sur 0, effectuer un rééquilibrage des données selon un 
tirage binaire indépendant de X conditionnellement à Y apporte moins d'information que 
de ne pas le faire. 
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Introduction a la régression 
non paramétrique 


Chapitre 16 


Introduction a la régression 
spline 


L’objectif de ce chapitre est de présenter de façon simplifiée une introduction aux 
méthodes de régression non paramétrique, en particulier la régression spline et les 
estimateurs à noyau et des k plus proches voisins. Le lecteur souhaitant approfondir 
ses connaissances pourra consulter le livre de Eubank (1999) par exemple. 


16.1 Introduction 


Nous avons évoqué en section 2.2 (p. 34) de possibles extensions du modèle de 
régression simple via la régression polynomiale, qui peut être considérée comme 
une régression multiple. Nous allons évoquer les avantages et les inconvénients 
potentiels de la régression polynomiale en reprenant l’exemple univarié de l’ozone 
vu au chapitre 1. 
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Fig. 16.1 — 50 données journalières de température et 03. 


Chaque point du graphique représente, pour un jour donné, une mesure de la 
température à 12 h et le pic d’ozone de la journée. 
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Nous avons déjà étudié en détail la régression linéaire simple. Le modèle supposé 
était 

Yi -= fai) + £i, t=1,---,n, 
où la fonction f était de la forme ax + b. Cependant, il y a peu de raison pour 
que la fonction inconnue soit de cette forme et nous allons essayer d'améliorer le 


modèle en supposant dans un premier temps que la fonction inconnue est de type 
polynomial. Le problème de minimisation univarié s’écrit toujours : 


mais G est maintenant l’espace des polynômes de degré d. Nous pouvons donc 


estimer le paramètre 8 = (Bo, B1,...,/B4) en minimisant la quantité 
” 2 
5 (yi Pom BiTi — -++ Bax?) ; 
i=1 
La matrice du plan d'expérience est X = (1, x, x?,--- , £?) et tous les résultats vus 


au chapitre 2 restent valables. L’avantage des polynômes est la facilité de mise en 
œuvre ainsi que leur capacité d’approximation. En effet, si la fonction inconnue 
f à estimer est continue sur un compact, elle peut être approchée uniformément 
par des polynômes sur ce compact (théorème de Stone-Weierstrass). La preuve 
du théorème de Stone-Weierstrass montre que le degré du polynôme croît avec la 
qualité de l'approximation. 

Il est donc intéressant d’étudier le comportement de l’estimateur provenant de 
la régression polynomiale en fonction du degré d du polynôme. Si d est petit, 
la fonction sous-jacente sera peu flexible (imaginons le cas d’une droite ou d’une 
parabole), alors que si d est élevé (imaginons un polynôme de degré 9 par exemple) 
la fonction aura tendance à osciller fortement. 

La fonction R polyreg à faire en exercice 16.2 effectue une régression polynomiale 
de degré d. Sur le graphique suivant sont représentées les courbes obtenues par 
les moindres carrés pour les modèles polynomiaux d’ordre 1, 2, 3 et 9 via les 
commandes suivantes : 


plot(03 ~ T12, xlim=c(0,35), ylim=c(0,150), data=ozone) 
Iter <= il 

for eae OPD 

tmp <- polyreg(ozone,d=ii) 

lines (tmp$grillex,tmp$grilley,col=iter,lty=iter) 

iteris iterii 

F 
legend(15,150,c("d=1", "d=2", "d=3","d=9") ,col=1:4,1ty=1:4) 


Woe oe Sp Sse NF WW) 
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Fig. 16.2 — Différentes régressions polynomiales pour les données d’ozone. 


De façon générale, un polynôme de degré d peut changer de monotonie au maxi- 
mum d — 1 fois. Si le degré d est trop élevé, la courbe estimée risque d’osciller 
exagérément. Cependant, lors de la régression polynomiale, même si la fonction es- 
timée admet peu de variations, il faut faire attention aux valeurs que peut prendre 
la fonction entre les observations. Cela est flagrant (figure 16.2) pour la régression 
polynomiale de degré 9 dans l'intervalle [7,10]. Ce propos est encore plus vrai en 
dehors de l'intervalle des données où il est proscrit d’effectuer des prévisions. 

Un autre problème de la régression polynomiale est son caractère global. En effet, 
une modification d’un point de l'échantillon peut modifier complètement la courbe 
estimée, surtout si ce point est au bord du domaine. 
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Fig. 16.3 — Sensibilité des estimateurs lors de la modification d’un point. 


Modifions le point qui correspond au minimum de la température (7.9 °C) en le 
remplaçant par 10 °C et comparons les différents estimateurs. On peut observer 
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en figure 16.3 que les régressions linéaire, quadratique, cubique ne sont quasiment 
pas affectées, alors que celle avec un modèle polynomial de degré 9 se trouve for- 
tement modifiée. Ainsi, lorsque le degré du polynôme est élevé, les estimations des 
coefficients ne sont pas robustes. Enlever une ou plusieurs données à l’échantillon 
peut modifier fortement les valeurs des estimations. 
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Fig. 16.4 — Evolution des estimateurs lors de la suppression d’un point. 

Il faut retenir que la régression polynomiale est très facile à mettre en œuvre mais 
la solution est trés dépendante du choix du degré d. De plus, l’estimateur des 
moindres carrés pour d grand est instable : des changements modiques dans les 
données peuvent entrainer des changements substantiels de la fonction de régres- 
sion estimée. 

En conclusion, sauf à soupçonner effectivement un modèle sous-jacent polyno- 
mial à degré élevé (ce qui est assez rare), nous préconisons d'utiliser la régression 
polynomiale avec un degré faible (inférieur ou égal à 3 par exemple). Si la solution 
obtenue ne convient pas car l’estimateur est trop rigide et ne semble pas adapté 
aux données, une autre solution est la régression par morceaux. 

Plusieurs stratégies sont en fait possibles, et en particulier les deux suivantes : 


1. découper l’étendue de la variable explicative en quelques morceaux (contigus). 
A l’intérieur de chaque intervalle, effectuer une régression polynomiale avec un 
degré faible : cela mènera à la régression spline décrite à la section 16.2; 

2. considérer un grand nombre de points x situés dans l’étendue de la variable 
explicative. Pour chacun d’eux, déterminer une prédiction en effectuant une ré- 
gression (constante, linéaire ou polynomiale) « locale » en pondérant les x; de 
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sorte que les valeurs proches de x ont des poids plus élevés que ceux qui sont 
éloignés de x. Schématiquement, cela revient à faire des régressions sur des inter- 
valles « glissants ». Cette technique correspond à la régression non paramétrique 
à noyaux décrite à la section 17.2.1. 


16.2 Régression spline 


16.2.1 Introduction 


Dans le cas de la modélisation de la concentration de l’ozone par la température, 
l'étendue de la température est découpée en deux intervalles. Les commandes 
suivantes permettent d'effectuer deux régressions linéaires, une pour les données 
qui correspondent à une température inférieure à 23 °C, une pour les autres 

> ind <- which(ozone[,2]<23) 

> regd <- 1m(03-Ti2,data-ozonel[ind,]) 

> regf <- 1m(03~T12,data=ozone[-ind,]) 

> gxd <- seq(3,23,length=50) 

> gyd <- regd$coef [1]+gxd*regd$coef [2] 

> gxf <- seq(23,35,length=50) 

> gyf <- regf$coef [1]+gxf*regf$coef [2] 

> plot (03~T12,data=ozone) 
> lines (gxd, gyd,col=2,1ty=1, 1wd=2) 
> lines (gxf, gyf,col=2,1ty=1,1wd=2) 
> abline (v=23) 


Nous obtenons alors le graphique suivant : 


03 


T12 


Fig. 16.5 — Régression par morceaux 
La régression par morceaux est peu sensible 4 une modification d’un point de 
Véchantillon, et cela pour deux raisons : 


1. S'il y a une modification, elle ne sera effective que sur l'intervalle auquel le 
point appartient. 
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2. En général, lorsque l’on effectue une régression par morceaux, on utilise des 
polynômes de degré faible qui sont plus robustes que des polynômes de degré 
élevé. 

Alors que l’on peut penser que la fonction inconnue à estimer est continue, effec- 
tuer des régressions par morceaux donne en général des estimateurs discontinus 
aux jonctions des intervalles. La section suivante va proposer des contraintes afin 
d'obtenir des estimateurs continus voire dérivables. 


16.2.2 Spline de régression 


Reprenons le modèle défini dans la section précédente : 


yi = f(t) + Ei. 


La fonction f est toujours supposée inconnue mais nous formulons maintenant 
l'hypothèse qu’elle admet d +1 dérivées continues sur l'intervalle [a, b] (f € Coty): 
Nous pouvons alors effectuer en tout point x de [a,b] un développement limité 


avec reste intégral : 


d x 
fa) = CDS @+ g S eO 
d Lf 
= 2 ale a)" 4 T (x — t) fD (t)dt 
= ple) +r(x) 


Si le reste intégral r(x) est petit, approximation de la fonction f par un polynôme 
sera correcte. On aura alors 


d d 
f(z) ~ plz) => axe a) =} Bet. 
k=0 k=0 


Cependant, si on veut prendre d petit, il est fort possible que r(x) ne soit pas négli- 
geable. Dans ce cas, il faudra pouvoir estimer le reste r(x). Pour cela, considérons 
la fonction u, = max(u,0) et réécrivons le reste intégral 


re) = gf 070 at 


b 
= gf wots war, 


où (x —t)4 = [(x—t):]% par définition. Il est impossible de calculer cette intégrale 
puisque f et ses dérivées sont inconnues. L’idée dès lors consiste à approximer cette 
intégrale par une somme de type Riemann. Pour ce faire, on découpe l'intervalle 
[a, b] en définissant K points intérieurs à l'intervalle 


a <i <'é2 <<... <Ërx-1 < Ex <b. 
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Une estimation de l’intégrale est donnée par 


1 f = 
FS E-A ot à Y Basle 65). 
a) 2 


Nous avons alors l’approximation de f par 
d K 
Fl) = s(x) =D Bent +Y Basle- 6). 
k=0 j=l 


La fonction s est appelée spline de degré d admettant K nœuds intérieurs. C’est par 
construction une fonction de Cr Définissons SE l’espace vectoriel engendré 
par les fonctions 1, x,..., xt, (æ — &1)4,...,(@ — £k)4. Ces fonctions forment la 
base dite « base des puissances tronquées » (voir fig. 16.6 pour un exemple). St 
qui est de dimension K +d+ 1, contient l’ensemble des fonctions splines de degré d, 
admettant K nœuds intérieurs positionnés aux points £1,--- ,Ex. 


0.0 02 é 04 06 Eg 08 1:0 
T 


Fig. 16.6 — Base des puissances tronquées de S sur [0,1] avec € = (1/3, 3/4). 
Utiliser les splines de régression revient à substituer au modèle initial 
yi = f(zi)+ €i, 
où f € Ch, le modèle simplifié 
yi = (ni) +E, 


où s € Et On peut aussi considérer qu’il s’agit de réécrire le modèle initial sous 
la forme 


yi = (f(x) — s(ai)) + 8(aa) + €i 


et supposer que l'erreur dite d’approximation f—s est faible de sorte qu’en estimant 
la fonction s 


d K 
s(a) = >> Bea® + Y Bar; (a — &)4 (16.1) 
k=0 j=l 
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on approche la vraie fonction de régression f de façon satisfaisante. 

Dès lors, lorsque le nombre de nœuds et leurs positions respectives sont fixés, on 
estime les paramètres 8 de l'équation (16.1) (appelée représentation de s dans la 
base des puissances tronquées) comme en régression linéaire multiple, en projetant 
orthogonalement Y sur oe En notant Xp: la matrice de taille n x (d+ K +1) 
composée des d+ K + 1 vecteurs de base (Xpt = [1|z|...|(a — €«)4]), on obtient 


B = (ae AY. 


L’intérét de la base des puissances tronquées est surtout pédagogique. Elle est 
peu utilisée dans la pratique car elle pose des problèmes de stabilité numérique 
(phénomène de Runge). Une autre base de Sat? est en général programmée dans 
les logiciels de statistique : la base des différences divisées ou B-splines. Nous 
noterons les nouvelles fonctions de base b1(x),...,bx411(x#). L'avantage majeur 
de ces fonctions de base est leur caractère local, caractère que l’on peut voir sur 
le graphique suivant : 


bi(x) 


0.0 0.2 04 06 0.8 


o0 UZ  UA 0 US TO 
x 
Fig. 16.7 — Graphique sur [0, 1] de la base des B-splines de SẸ avec € = (1/3,3/4). 


Il est clair que les fonctions de base 6; (t) sont non nulles sur l'intervalle [é;, €)+a+41] 
et nulles en dehors, cela entraîne donc que b;(t) et bj+a+1(t) sont orthogonales. On 
peut montrer que Xh Xs est une matrice bande avec Xg = [bi (x)|... |b +a41(2)], 
(voir exercice 16.4). Cependant, pour pouvoir toujours écrire que les b;(t) sont 
non nulles sur l'intervalle [€;,€)4a+41], il est d'usage d’étendre les nœuds intérieurs 
en un vecteur de nœuds étendus. Le vecteur des nœuds étendus est simplement 
constitué par le positionnement de d+ 1 nœuds fictifs aux bords de l'intervalle. 
Nous avons donc d +1 nœuds en a, puis les K nœuds intérieurs, puis d+ 1 nœuds 
en b. Graphiquement, nous pouvons représenter le vecteur des nœuds étendus de 
la façon suivante (voir fig. 16.8). 


1 =: = d+ Éd+1+1 Édr1+2  Édr1r241 =": = É2a+2+2 
t t t t œ> 


a=0 éi E2 b=1 
Fig. 16.8 — Nœuds intérieurs € = (3; 3) et nœuds étendus pour l'intervalle [0, 1]. 
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Avec l’aide de ces nœuds étendus, on peut écrire : 


b(t) A 0 VE, Eja]. 
Dans cette nouvelle base, la formule (16.1) devient : 


d+1+K 


s(t) = J. agbg(a). (16.2) 


k=1 


Dans l’exemple graphique (fig. 16.7), une base recouvre donc d+ 1 = 3 « inter- 
valles » successifs, où les intervalles sont la partition de [0,1] définie par les nœuds 
étendus. Cela illustre bien le caractère local de la base des B-splines. 

La base des B-splines engendre bien évidemment le polynôme de degré 0 (ou 
constante « intercept ») mais il ne fait pas partie de la base (voir par exemple 
la figure 16.7). En statistique, il est d’usage d’incorporer le coefficient constant 
dans un modèle de régression. Dans ce cas, pour que l’hypothèse Hı (la matrice 
du plan d’expérience est de plein rang) soit valable, on ne peut pas ajouter à la 
matrice Xp le vecteur colonne 1. Il faudra donc soit supprimer une colonne de Xp, 
par exemple la première et la remplacer par le vecteur de 1 (intercept=FALSE, 
argument par défaut de la fonction bs de R), soit garder toutes les fonctions de 
base (argument intercept=TRUE). 

Pour effectuer une régression spline, il faut donc choisir une suite de nœuds inté- 
rieurs, un degré et les bords de l'intervalle (par défaut le logiciel prend le minimum 
et le maximum de l'échantillon). Pour l’exemple de l’ozone, choisissons deux nœuds 
intérieurs (15 et 23 par exemple), des polynômes de degré 2 et prenons 5 et 32 
comme bords de l'intervalle. Il faut d’abord transformer la variable explicative 
dans sa base des B-splines grâce aux commandes suivantes : 


| > library(splines) | 
| 


| > XB <- bs(ozone[,2], knots=c(15,23), degree=2, 
| Boundary.knots=c(5,32)) 


| 


La matrice XB a K + d colonnes, la première étant supprimée (intercept=FALSE 

par défaut). Il suffit ensuite d’effectuer la régression de la variable à expliquer 

comme suit : 

| > regs <- Im(ozone[,"03"] ~ XB) | 
> regs$coef 

(Intercept) XB1 XB2 XB3 XB4 
51.101947 61.543761 5.562286 70.459103 106.711539 | 


J 


Nous avons donc ici une régression spline avec 5 paramètres. Pour avoir une re- 
présentation graphique de la fonction estimée, on choisit une grille de points où la 
fonction va être évaluée. Il faut évaluer toutes les fonctions de la base des B-splines 
utilisée pour la régression en chaque point de cette grille. Il faut ensuite appliquer 
la formule (16.2) et dessiner la fonction estimée. Le coefficient constant ne faisant 
pas partie de la base, il est traité à part. 
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> grillex <- seq(5,32,length=100) 
> bgrillex <- bs(grillex, knots=c(15,23), degree=2, 
Boundary . knots=c (5,32) ) 
| > prev <- bgrillex/*as .matrix(regs$coeff [-1])+regs$coeff [1] 
> plot (03~T12,data=ozone) 
> lines (grillex, prev, col=2) 
> abline(v=c(15,23)) 


+0 15 20 25 30 
Fig. 16.9 — 50 données journalières de température et d’ozone avec l’estimation 
d’une régression spline avec 2 nœuds intérieurs et de degré 2 soit 5 paramètres. 


La figure 16.9 nous confirme que nous avons effectué une régression polynomiale 
par morceaux avec des contraintes de raccordement aux nœuds. 


16.3 Spline de lissage 


Spline est un mot anglais qui désigne une latte en bois flexible qui était utilisée 
par les dessinateurs pour tracer des courbes passant par des points fixés. 

Pour passer par ces points, la latte de bois se déformait et le tracé réalisé minimisait 
donc l'énergie de déformation de la latte (fig. 16.10). Par analogie, ce terme désigne 
des familles de fonctions d’interpolation ou de lissage présentant des propriétés 
optimales de régularité. 


Latte de bois souple : spline 


Fig. 16.10 — Spline en bois. 


Introduction à la régression spline 391 


Dans un cadre de régression, une spline de lissage est une fonction f qui posséde a 
la fois une bonne qualité d’ajustement (f(x;) proche de y;) et de bonnes propriétés 
de régularité (par exemple une dérivée seconde qui ne prend pas des valeurs trop 
élevées). Le problème mathématique va donc consister à trouver la fonction f qui 
minimise 

n 2 
SOn- ft) f (FOO) à (16.3) 
i=1 
où A > 0 est un paramètre à calibrer. La première partie mesure la proximité 
avec les données tandis que la seconde pénalise la forme (plus la fonction f sera 
oscillante et plus l'intégrale sera élevée). Ce problème est proche des problèmes 
de minimisation ridge et lasso étudiés dans le chapitre 8. Nous ne rentrons par 
dans les détails techniques de résolution de ce problème de minimisation mais il 
est possible de montrer que, pour une valeur de À > 0 fixée, il existe une solution 
unique que l’on peut calculer. 
Comme pour les régressions ridge et lasso, le choix de A est crucial. En effet un 
choix de À « grand » va impliquer que le terme de pénalisation va dominer et 
pour minimiser le critère il faudra trouver un estimateur tel que le terme dans 
l'intégrale soit petit, c’est-à-dire une fonction qui oscille peu. La fonction R qui 
permet d'effectuer cette régression est smooth.spline. Pour une forte valeur de 
À dans l’argument lambda 


> regssplineli <- smooth.spline(ozone[,2],ozone[,1],lambda =100) 
> prevli <- predict (regssplinel1,grillex) 

> plot (03~T12,data=ozone) 

> lines (prev11$x, prevli$y ,col=2) 


nous obtenons la figure 16.11. 
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Fig. 16.11 — 50 données journalières de température et d’ozone avec l'estimation 


de la fonction de régression par des splines de lissage pour une forte valeur de À. 


Réciproquement, une valeur de À (trop) petite va favoriser le terme associé à la 
proximité aux données, c’est-à-dire le premier terme de (16.3). Nous risquons alors 
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d’obtenir une courbe très variable qui va se rapprocher des points de l'échantillon 
(risque de sur-ajustement). Vérifions cela avec le méme code que précédemment 
mais avec À = 106 (voir fig. 16.12). 
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Fig. 16.12 — 50 données journalières de température et d’ozone avec l'estimation 


de la fonction de régression par des splines de lissage pour une faible valeur de À. 


Le choix du paramètre À se fait généralement par validation croisée. La fonction 
smooth. spline intégrée dans R est utilisable de la manière suivante : 


> regsspline <- smooth.spline(ozone[,2],ozone[,1]) 
> prev <- predict (regsspline,grillex) 

> plot (03~T12,data=ozone) 

> lines (prev$x, prev$y , col=2) 


Le code ci-dessus donne la figure 16.13. 
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Fig. 16.13 — 50 données journalières de température et d’ozone avec l’estimation 
de la fonction de régression par des splines de lissage. 


Dans le résumé de la fonction nous avons : 
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> regsspline 
Call: 
smooth.spline(x = ozone[, 2], y = ozone[, 1]) 


Smoothing Parameter spar=0.941034 lambda=0.0068333 (15 iterations) 
Equivalent Degrees of Freedom (Df): 4.156771 
Penalized Criterion: 11036.88 

| GCV: 289.8012 


et nous voyons le lambda optimal proposé par la fonction ainsi qu’un terme donnant 
le nombre de degré de liberté équivalent. Ce terme permet de mesurer une forme de 
complexité de l’estimateur obtenu. Dans le modèle de régression linéaire multiple, 
la complexité est généralement définie par le nombre de variables dans le modèle. 
Ce nombre correspond à la dimension de l’espace sur lequel on projette, et donc à 
la trace du projecteur Px. On rappelle que ce projecteur vérifie Y = PxY. Dans 
le cas des splines de lissage, il n’existe pas de matrice de projection mais il existe 
une matrice S), appelée matrice de lissage, qui vérifie 


Ÿ = SY. 


Par analogie avec le modèle linéaire, le nombre de paramètres ou le nombre de 
degrés de liberté équivalent d’une spline de lissage est la trace de cette matrice S). 
Ici, le nombre de degrés équivalent (Df) vaut 4.16. 


16.4 Exercices 


Exercice 16.1 (Questions de cours) 
1) La difficulté pour effectuer une régression polynomiale réside dans 
A. le choix du degré, 
B. le choix des données, 
C. l'interprétation du modèle. 


2) La régression spline est une régression polynomiale par morceaux 

A. avec contraintes aux nœuds, 

B. sans contrainte aux nœuds, 

C. ce n'est pas une régression. 
3) Vous effectuez une régression spline de degré 3 avec 2 nœuds intérieurs (différents) et 
une régression spline de degré 1 avec 4 nœuds intérieurs (tous différents les uns des autres). 
Avez-vous le même nombre de paramètres ? 

A. Oui. 

B. Non. 

C. Cela dépend de l'emplacement des nœuds. 
4) Vous effectuez une régression spline de degré 3 avec 2 nœuds intérieurs et une régression 
spline de degré 1 avec 4 nœuds intérieurs. Avez-vous les mêmes résultats ? 

A. Oui. 

B. Non. 

C. Cela dépend de l'emplacement des nœuds. 
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Exercice 16.2 (fonction polyreg) 
1) Calculez l'écart type empirique de la variable T12 du tableau ozone (fonction sd). 
2) Créez un vecteur nommé grillex de 100 points réguliérement répartis entre le minimum 
de T12 moins un écart type et le maximum de T12 plus un écart type (fonction seq). 
3) Transformez ce vecteur en data-frame (fonction data.frame) et affectez comme nom 
de colonne (names) le nom T12. 
4) Effectuez une régression polynomiale de degré 3 grace aux fonctions 1m et poly. Les 
polynémes seront choisis non orthogonaux (argument raw=TRUE). L'aide de cars pourra 
aussi être consultée. 
5) Prévoyez sur la grille grâce au data-frame de la question 3) et au modèle de la question 
précédente (predict). 
6) Proposez une fonction (nommée polyreg) qui possède comme arguments un data-frame 
de données, le degré d qui par défaut sera 3 et qui retourne une liste de deux arguments : 
le vecteur grillex et le vecteur de prévision. Les noms de variables ne seront pas des 
arguments. 


Exercice 16.3 
En utilisant les données ozone.txt et la fonction polyreg, retrouvez les commandes permet- 
tant d'obtenir le graphique 16.2. 


Exercice 16.4 

Considérons la matrice Xg du plan d'expérience obtenue à partir d'une variable réelle X 
transformée dans = "AS Cette matrice de taille n x (d+ K +1) est composée des d+ K +1 
vecteurs de base. Démontrer que Xb Xp est une matrice bande. Que peut-on dire sur la 
corrélation des Br estimateur des MC dans cette base ? 


Chapitre 17 


Estimateurs à noyau et k 
plus proches voisins 


Nous présentons dans ce chapitre une courte introduction sur les estimateurs à 
noyau et les estimateurs des k plus proches voisins. Ils sont souvent vus comme 
les estimateurs non paramétriques de référence. Le lecteur souhaitant approfondir 
ses connaissances pourra consulter le livre de Eubank (1999). 


17.1 Introduction 


Reprenons l’exemple de l’ozone : nous allons chercher à expliquer la concentration 
en ozone (03) par la température à 12 h (T12). 
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Fig. 17.1 — 50 données journalières de température et 03. 


Chaque point du graphique représente, pour un jour donné, une mesure de la 
température à 12 h et le pic d’ozone de la journée. En examinant la figure 17.1 
nous voyons que les points ne sont pas répartis autour d’une droite et qu’il semble 
y avoir une cassure après 20 °C : un ajustement linéaire n’est donc pas adéquat. 
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Nous proposons donc de considérer le modèle de régression 
yi = fai) + £i t=1,---,n, 


où y; représente la i° réponse et donc ici la concentration en ozone et €; est une 
variable aléatoire telle que E(¢;) = 0. Par conséquent, l’espérance E(y;) est vue 
comme une fonction (inconnue) f(x;) de la i® température à 12 h x;. L’objectif de 
ce chapitre est d’autoriser f à appartenir à une classe plus large et plus flexible de 
fonctions que les fonctions affines ou polynomiales. 

Sans perte de généralités, on suppose que les x; sont ordonnés : xı < £2 < ... < Zn. 
Nous souhaitons dans un premier temps proposer que la fonction inconnue soit une 
fonction en escalier, le problème de minimisation s'écrit : 


argmin D (yi — F(a), (17.1) 


où G est maintenant l’espace des fonctions en escalier. Pour définir un peu mieux 
cet ensemble G, nous avons (en gros) deux possibilités. La première consiste à 
définir à priori et sans qu’il ne soit plus possible de revenir dessus, les m — 1 
emplacements des marches d’escalier (ou la partition de l'intervalle [x1,æ%»]) : & = 
zı < 2 < E3 <... < Êm < Tn = Em+1. Une fonction en escalier consistera donc 
à choisir les hauteurs de marche en ces points €;. Plus formellement, l’ensemble G 
sera donc l’ensemble des fonctions 


{rt > R | f(x) =) sis) cj ER JE nm} 


j=1 


où I; désigne l'intervalle ]£;,€;+1]. Dans ce cadre, la minimisation revient donc à 
chercher les hauteurs ¢; qui minimise le critère (17.1). 

Une seconde possibilité pour définir G serait de laisser à la fois les {&; Fo et les 
{c; Frs libres (et donc à optimiser). Cette approche plus complexe ne sera pas 
évoquée. 
Puisque nous nous concentrons sur la première possibilité, il nous faut définir les 
« emplacements des marches » de l'escalier {£, Fo Comme nous avons 50 points, 
nous proposons de considérer m = 5 segments comprenant 10 points chacun et 
nous approchons donc f par une valeur constante sur chaque segment avec les 
segments suivants : 


Dh = (21,210), T2 =]£10, £20], ».., Is =|240, £50]. 


Concernant notre exemple, nous ordonnons les données en utilisant R grace a : 


| > ind <- order(ozonel[,"T12"]) 
> T120 <- ozone[ind,"T12"] 


| > 030 <- ozone[ind,"03"] 
| 
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Une fonction de la classe G, constante sur chaque intervalle, s’écrit 
5 
f(x) = Sin): 
j=l 


Le probléme de minimisation (17.1) devient 


5 n 
argmin 5 5 in 6) 
=1 i=1 


C1,:..,C5 > 
J 


Il peut également s’écrire comme une problème de régression pondérée en intro- 
duisant les poids : 


5 n s 
argmin X X wij(yi — cj)’, avec wij = Ep 
a. ee Aa N d ei 0 sinon. 
es STI Gad 

Chercher la meilleure approximation constante sur chaque segment J; revient donc 
à effectuer une régression constante sur les segments. L’estimateur d’une régression 
constante étant la moyenne, on déduit que les ê; s’obtiennent en faisant la moyenne 
des y; pour lesquels les x; sont dans l'intervalle J;. Nous pouvons ainsi calculer les 
ĉj avec les commandes suivantes : 


> regi <- 1m(030-1,weight=c(rep(1,10) ,rep(0,40))) 
> reg2 <- 1m(030~1,weight=c(rep(0,10) ,rep(1,10) ,rep(0,30))) 
> reg3 <- 1m(030~1,weight=c(rep(0,20) ,rep(1,10) ,rep(0,20))) 
> reg4 <- 1m(030~1,weight=c(rep(0,30) ,rep(1,10) ,rep(0,10))) 
> reg5 <- 1m(030~1,weight=c(rep(0,40) ,rep(1,10))) 


et nous obtenons alors un estimateur en escaliers de la fonction f (voir fig. 17.2). 
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Fig. 17.2 — Estimation par morceaux. 


Un tel estimateur est semblable à un estimateur de type histogramme pour le 
problème d'estimation de la densité. Tout comme l’histogramme, il possède l’in- 
convénient de ne pas être continu, il y a un saut lorsqu'on passe d’un intervalle 
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a un autre. Les sauts dépendent ainsi du choix des segments qui est effectué par 
Vutilisateur. Cela peut se révéler gênant dans la mesure où aucune considération 
métier ne nous pousse a penser que la concentration en ozone doit étre discontinue 
entre la 10° et la 11° température, puis entre la 20° et la 21°, etc. 

De plus, cette façon de procéder pose un problème évident lors de la prédiction. 
Ainsi pour prédire Y au niveau du dixiéme point par exemple, nous utilisons les 
points æ1,...,%10 dont certains comme x, en sont très éloignés alors qu’il aurait 
semblé plus judicieux de considérer les points £11 ou £12 beaucoup plus proches 
de lui. Il paraît donc naturel de proposer une méthode qui choisisse de façon 
« intelligente » le poids des observations entrant dans la prévision de Y pour une 
valeur de x quelconque. L’estimateur à noyau, qui est basé sur une idée proche de 
cet estimateur en escalier, permet de pallier ce problème de discontinuité. 


17.2 Estimateurs par moyennes locales 


De nombreux estimateurs s’écrivent comme une moyenne pondérée des y; 
n 
Fla) = X Wrila)yi 
i=1 


où W,,;(x) représente le poids accordé à la i® valeur de Y. Les moyennes locales 
consistent à définir les W,;(x) en fonction de la proximité entre l’observation x; et 
le point x où on cherche à estimer la fonction de régression. L’idée sous-jacente est 
de donner un poids plus important aux observations qui sont proches de x. Nous 
présentons dans cette section deux types de poids basés sur cette idée. 


17.2.1 Estimateurs à noyau 


Pour améliorer notre estimateur en escalier, nous proposons ici une façon plus 
astucieuse de choisir les segments en considérant que tous les points x où on 
cherche à estimer la fonction de régression f doivent être au centre du segment. 
Dans ce cas, il n’y a plus besoin de fixer des segments mais seulement une longueur 
de segment. Si on considère par exemple une longueur égale à 2h avec h > 0, 
nous allons estimer f en x en considérant uniquement les observations x; qui 
appartiennent au segment [x — h,x+h]. Ainsi un estimateur naturel pour f(x) est 
alors la moyenne des réponses y; pour lesquelles les x; appartiennent à l’intervalle 
[x —h,x+hl] 


f(x) = NE lp han] (xi) yi 

Sea Teele) ? 
à condition que le dénominateur soit strictement supérieur à 0. Il est intéressant 
de noter que cet estimateur est la solution d’un problème de type moindre carrés 
pondérés. En effet, pour une valeur de x fixée, la constante 6 qui minimise 
n 


N lyi — b} Lein sin(a) (17.2) 


i=l 


Estimateurs a noyau et k plus proches voisins 399 


est fa (x). Cette valeur s’obtient donc en effectuant une régression constante sur le 
segment [x—h,x+hl] et il est facile de voir que la solution est donnée par la moyenne 
des y; tels que x; € [x—h,x+h]. La figure 17.3 illustre ce procédé d’estimation pour 
x = 16 et h = 2. On considère donc uniquement les observations dans l'intervalle 
[14,18] et l’estimateur de f en x — 16 correspond à la concentration en ozone 
moyenne des observations qui appartiennent à cet intervalle. Cette moyenne vaut 
71.96. 
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Fig. 17.3 — Points utilisés pour calculer l’estimateur au point 16. La valeur de 
l’estimateur en ce point est représentée par le triangle. 


La solution du problème (17.2) est la moyenne des observations dans le segment 
[x — h,x + h] et s'écrit 


X 1 le (Ti) 
f(x) = y = SS . (17.3) 
ere 2 ane) 


x; E[r-h,x+h] 


Remarquons que dans le problème de minimisation (17.2), toutes les observations 
qui se trouvent dans la fenêtre [x — h,x + h] ont le même poids. Il peut être 
intéressant de donner des poids différents aux observations en fonction de leur 
proximité avec x par exemple. Cela s'effectue en remplaçant l’indicatrice par une 
fonction K, appelée noyau, qui est le plus souvent une densité de probabilité 
(fonction positive dont l’aire sous la courbe vaut 1). Le problème de minimisation 
devient 


argmin X (v; = BK (z 7) (17.4) 


(17.5) 


Cet estimateur, appelé estimateur 4 noyau ou de Nadaraya Watson, dépend de 
deux paramètres : un réel positif h appelé fenêtre et une fonction K appelée 
noyau. 
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— La fenêtre est un réel positif h. Elle permet à l’utilisateur de contrôler le 
caractère local des poids. En effet plus la fenêtre est petite et plus on va se 
focaliser sur les observations très proches de x pour calculer l’estimateur. Par 
exemple, pour l’estimateur (17.3), la fenêtre contrôle la longueur de l'intervalle 
centré en x et par conséquent le nombre d’observations qui sont prises en compte 
pour calculer l’estimateur en x. 

— Le noyau est une fonction K : R — R* positive dont l’aire sous la courbe 
vaut 1 (densité de probabilité). Cette fonction permet de contrôler le poids donné 
à chaque observation en fonction de la proximité entre x et x;. Elle prendra donc 
généralement de fortes valeurs lorsque la distance entre x et x; est petite et des 
faibles valeurs lorsque cette distance est grande. Le noyau proposé dans l'écriture 
(17.3) est K(u) = $1)-1,1(w). Ce noyau, appelé noyau uniforme, donne le même 
poids à toutes les observations dans la fenêtre. Par conséquent, des points situés 
dans la fenêtre, mais éloignés de x, auront des poids identiques à des points très 
proches de x. 

D’autres noyaux peuvent être utilisés pour donner plus de poids aux observations 
proches de x. On citera par exemple le noyau gaussien 


ue 


ou celui d’Epanechnikov 
3 2 
K(u) = ria =u )1j-1,1)(u). 


Ces noyaux sont représentés sur la figure 17.4. 
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Fig. 17.4 — Représentation des noyaux gaussien, Epanechnikov et uniforme. 


Une extension naturelle au cas multivarié x € IR? consiste simplement à utiliser un 
noyau K : R? + R* (pour une définition plus précise, voir section 17.4.1, p. 406). 
La fonction npregress du package ibr permet de calculer des estimateurs à noyau. 
On représente les estimateurs à noyau pour 3 valeurs de fenêtres différentes avec 
le code suivant (voir figure 17.5) : 
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> library(ibr) 

> x <- seq(7,30,by=0.01) 

> par(mfrow=c(1,3)) 

> h <- c(20,3,0.05) 

> for (i in h){ 

+ plot(T12,03,pch=20,xlab="T12" ,ylab="03") 
+ tmp <- npregress(T12,03,bandwidth = i) 

+ prev <- predict (tmp,newdata=x) 

+ lines(x,prev,col="blue", 1wd=2) 

$y 
8 [rrun 8 

e . RCA | e 

$4 T T E T T $ 

10 15 20 25 30 10 15 20 25 30 10 15 20 25 30 


TI2 TI2 TI2 
Fig. 17.5 — Estimateurs à noyau pour h = 20 (gauche), 3 (milieu) et 0.05 (droite). 


Le noyau utilisé ici est le noyau gaussien, on peut le changer en modifiant l’option 
kernel dans npregress. On remarque que le choix de la fenêtre a une importance 
cruciale sur la performance de l’estimateur. Ce choix sera abordé dans la section 
IAZ: 


Le caractère local de l’estimateur est contrôlé par la fenêtre et ce choix est basé 
sur une distance entre les points x; et x. En général, la fenêtre h est constante 
pour lestimation de la fonction, elle ne dépend pas de x. Si la répartition des 
points en fonction de la variable X n’est pas uniforme (comme dans le cas de la 
température), il y aura des endroits où la fonction va être estimée avec beaucoup de 
points (s’il y a beaucoup de points dans l'intervalle) et au contraire des endroits où 
la fonction va être estimée avec peu de points (par exemple dès que la température 
est en dessous de 15 degrés, ou plus généralement aux bords du domaine). Il est 
possible de décider de prendre toujours le même nombre k de points pour estimer 
la fonction et ceci en tout point du domaine. Le caractère local est dans ce cas lié 
à ce nombre de voisins k. Cet estimateur, appelé estimateur des k plus proches 
voisins, est présenté dans la section suivante. 
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17.2.2 Les k plus proches voisins 


Il est facile de voir que l’estimateur à noyau (17.5) peut se mettre sous la forme 


nl. 
fal ) = 2 Wnil Jui a Wri(z) yk) 


Les poids sont ici définis à partir de la distance entre x et les x;. Une autre façon de 
procéder pour définir les poids consiste à utiliser la position de x; relativement aux 
autres observations : on donnera un poids important à la 7° observation uniquement 
si x; fait partie des plus proches voisins de x. 

Formellement, étant donné (x1,y1),..., (En, Yn) avec z; € R, y; E€ Ret x € R, on 
réordonne les observations en fonction de leur proximité avec x : 


(x(1)(2), ya) (x)), anes (Pini (T), Yn) (x)) 


avec |£(1)(x) — z| <... < |£in (x) — z|. En cas d'égalité, une règle doit être fixée. 
Il en existe plusieurs, on peut par exemple utiliser les indices : si x; et x; sont à 
égale distance de x, à est déclaré plus proche si à < j. Etant donné k un entier 
inférieur ou égal à n, l’estimateur des k plus proches voisins s’obtient en faisant la 
moyenne des y; qui figurent parmi les k plus proches voisins de x : 


k 
2 yala). 


On remarquera que, là encore, cet estimateur s’écrit comme une moyenne locale 
X; 1 Wnri(x)yi. Les poids sont ici égaux à 1/k si x; appartient aux k plus proches 
voisins de x, 0 sinon. 

Une généralisation multivariée s’obtient assez simplement en remplaçant l’ordre 
a)(x) — x] <... < |En (£) — x| (qui west pas défini quand x € R?) par l’ordre 
eals) — 2|| < ... < ||£n) (£) — ri] (voir section 17.4.1 p. 406). 

Sur R, on peut utiliser la fonction knn.reg du package FNN pour calculer des 
estimateurs par plus proches voisins. On propose par exemple ici de représenter 
ces estimateurs pour k = 1,10 et 50 (voir figure 17.6) : 


f(x) = 


a] Re 


par (mfrow=c(1,3)) 
library (FNN) 
k <- c(50,10,1) 
for (i in k){ 
mod <- knn.reg(train=T120,test=as.matrix(x) ,y=030,k=i) 
plot (T120 ,030, pch=20,xlab="T12" , ylab="03") 
lines (x,mod$pred,col="blue" , lwd=2) 


(ee) 


[eee bu yy | 


Le choix du nombre de voisins k joue un rôle identique pour l’estimateur des k 
plus proches voisins au choix de la fenêtre h pour l’estimateur à noyau. Ainsi pour 
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de grandes valeurs de k ou de h, les estimateurs utiliseront une large étendue des 
données et seront donc stables (faible variance) alors que pour un choix de petites 
valeurs de k ou h, les estimateurs n’utiliseront qu’un petit nombre de données et 
seront donc très variables (forte variance). 
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Fig. 17.6 — Estimateurs des k-ppv pour k = 50 (gauche), 10 (milieu), 1 (droite). 


17.3 Choix des paramètres de lissage 


Les figures 17.5 et 17.6 montrent que les paramètres de lissage (h pour le noyau 
et k pour les plus proches voisins) sont très importants pour les performances des 
estimateurs. Nous noterons donc À ce paramètre de lissage qui sera soit h soit k 
selon l’estimateur considéré. Les approches classiques permettant de choisir ces 
paramètres sont proches des techniques présentées au chapitre 10. Elles consistent 
à se donner un critère de prévision, une grille de valeurs (pour h ou k) et à choisir 
la valeur de la grille qui optimise le critère calculé. 

Dans le cas de ces deux estimateurs non paramétriques, il existe une astuce qui 
permet de faire de façon efficace de la validation croisée leave-one-out (voir algo- 
rithme 3 avec K = n). 

Avant de présenter cette astuce, remarquons que, comme nous l’avons vu pour les 
splines (voir en fin de section 16.3, p. 390), les estimateur à noyau et des k plus 
proches voisins sont des lisseurs : il existe une matrice S(X, A) de taille n x n, 
appelée matrice de lissage, telle que 


Ÿ = S(X,AY. 


Pour l’estimateur à noyau, la matrice de lissage a pour terme général 
yau, p 


K((z; — x;)/h) 
D K((z: — x1ı)/h) 


Pour l’estimateur des k plus proches voisins, elle est donnée par 


Siz (X, h) (17.6) 
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1/k six; est parmi les k-ppv de x; 
SH) = { 0 Sinon. 


Comme pour les splines de lissage (voir section 16.3, p. 390) cette présentation 
des estimateurs à noyau et des k plus proches voisins avec une matrice de lissage 
S(X, À) permet d'introduire le nombre de paramètres ou le nombre de degrés de 
liberté équivalent. Il est défini comme étant la trace de cette matrice de lissage 
df = tr(S(X, À)). Rappelons que ce nombre de degrés de liberté équivalent provient 
d’une simple analogie avec la régression linéaire : en régression linéaire nous avons 
Y = PxY, donc la matrice de lissage est dans ce cas Py. La trace d’un projecteur 
est égale à la dimension du sous espace dans lequel on projette, qui, lorsque X 
est de plein rang, vaut p, le nombre de paramètres. On a donc qu’en régression 
linéaire, le nombre de paramètres vaut tr Px. Cette formulation se généralise et 
donne lieu au nombre de degrés de liberté équivalent. 

Revenons au problème de sélection du paramètre du paramètre de lissage À. Nous 
proposons d'utiliser la validation croisée leave-one-out. Cette approche consiste à 
trouver sur une grille de valeurs de À celle qui minimise le critère suivant 


n 


LOO(fx) = X (yi — fi(xi))?, 


i=l 


fi désigne l’estimateur f\ (noyau ou k plus proches voisins) calculé sans la 4° 
observation : la ¿° observation est enlevée du jeu de données et l’estimation est 
alors conduite avec ce jeu de données de taille n — 1. De prime abord, l’approche 
paraît coûteuse en temps de calcul car pour chaque À de la grille, il faut faire n 
estimations avec n — 1 points, prévoir puis calculer le critère et enfin choisir la 
valeur (optimale) qui minimise le critère parmi tous les À de la grille. 

Néanmoins pour les estimateurs à noyau et des plus proches voisins, on montre 
dans l’exercice 17.6 que 


5 2 
e,_1 = Yi — Fr(xi) 
LOO(fn) = = 2. (es) (17.7) 
et j 
LOO(fx) = > (; es) | (17.8) 


Ces deux écritures sont beaucoup plus intéressantes puisqu'elles ne nécessitent pas 
de calculer l’estimateur n fois, elles s’obtiennent directement à partir des matrices 
de lissage. Nous retrouvons le lien entre erreur d’estimation et erreur de prévision 
vu en régression où le terme S;;(X, À) est remplacé par h;;, le terme diagonal de la 
matrice de projection. En effet, dans l’exercice (3.4), nous montrons que l'erreur 
d'estimation y; — ĝi vaut l'erreur de prévision y; — DA divisée par 1 — hy. 
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La fonction npregress propose différentes manières d'optimiser le paramètre par 
validation croisée, validation croisée généralisée ou leave-one-out. Pour choisir, il 
faut le préciser dans l'argument cv.options (argument de type liste). 

Reprenons l’exemple de l’ozone 


> hcv <- npregress(T12,03)$bandwidth 
> hcv 


[1] 1.688373 


En ce qui concerne la fonction knn.reg, elle permet de calculer cette erreur leave- 
one-out pour l’estimateur des plus proches voisins. Pour k = 10 avec les données 
de l’ozone, il suffit d'utiliser 


> knn.reg(train=Ti20,y=030,k=10)$PRESS/length(T120) 
[1] 287.6629 


On peut maintenant utiliser ce procédé pour sélectionner une valeur de k. On 
choisit d’abord une grille de candidats 


| > K_cand <- 1:49 


On calcule ensuite l’erreur leave-one-out pour chaque valeur de la grille 


v 


loo <- rep(0,length(K_cand)) 
for (i in 1:length(K_cand)){ 
loo[i] <- knn.reg(train=T120,y=030, 
k=K_cand [i] )$PRESS/length (T120) 


+ Vv 


On choisit enfin la valeur de k qui a la plus petite erreur 


> K_cand[which.min(loo)] 
[1] 8 


On choisira donc ici 8 plus proches voisins, choix qui est confirmé par la validation 
10 blocs (voir exercice 17.7). 
On peut maintenant tracer les deux estimateurs avec les paramètres sélectionnés : 


mod.kppv <- knn.reg(train=T120,test=as.matrix(x) , y=030,k=8) 
mod.noyau <- npregress(T120,030,bandwidth = hcv) 
prev.noyau <- predict (mod.noyau,newdata=x) 

plot (T120 ,030, pch=20, xlab="T12" ,ylab="03") 
lines(x,mod.kppv$pred,col="blue", lwd=2) 

lines (x,prev.noyau,col="red",1ty=2, 1lwd=2) 
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Fig. 17.7 — Estimateurs à noyau (tirets) et des plus proches voisins (trait plein) 


pour les valeurs de h et k sélectionnées par validation croisée. 


Une fois le paramètre À choisi, peut-on comparer cette estimation à celle obtenue 
avec la régression spline ou à la régression multiple ? Avec ces dernières, il est facile 
de contrôler le nombre de paramètres utilisés (5 dans l’exemple de la régression 
spline pour la concentration de l’ozone, voir en fin de section 16.2.2, p. 386). Avec 
les estimations non paramétriques, il faut passer par le nombre de degrés de liberté 
équivalent. Nous avons ici 

> mod.noyau$df 

5.34 


Le nombre de degrés équivalent est 5.34. Nous avions estimé cette même fonction 
avec 5 paramètres avec des B-splines et la sortie du code R donnant les résultats 
des splines de lissage indiquait un nombre de degrés de liberté équivalent de 4.16. 
Pour les k plus proches voisins la trace de la matrice de lissage vaut n/k. Par 
conséquent, le nombre de degrés de liberté équivalent est de 50/8 = 6.25. 


17.4 Ecriture multivariée et fléau de la dimension 


17.4.1 Ecriture multivariée 


Dans cette section nous sommes en présence de p variables explicatives X1, X2,..., Xp 
et nous avons le modèle suivant 


Yi = f(z) +E, 
où x; € R? et où E(e;) = 0. 
— L’estimateur à noyau (de f) est défini de manière générale par 


aa Din YKh (2 — ti) 
ee > 


h 
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où h € R*? est un vecteur de fenêtres, et la fonction K, est définie par 
R? —> Rt 


(21,3 Zp) + Kp(21,...,%p) = KP (i) 

où KOP) est un noyau, c’est-à-dire une fonction KP) : RP? + R+ dont l'aire sous 
la courbe vaut 1. 

Cette écriture très générale peut être simplifiée. Tout d’abord nous allons ici 
considérer que les fenêtres sur chaque axe (noté hj) sont constantes et égale à 
h. Remarquons qu’il est important de standardiser chaque variable lorsqu’on 
fait ce choix. Ensuite, plutôt que d’utiliser un noyau multivarié on se ramène a 
un noyau univarié, soit en proposant un produit de noyau, soit en utilisant une 
norme (en général euclidienne) : 


K®)(x1,...,2p) = K(Iæll), 


où K : R*+ — R? est un noyau univarié (uniforme, Gaussien...). Ce choix 
suppose implicitement que la notion de proximité est de symétrie sphérique. 
Avec ces hypothèses simplificatrices nous obtenons l’estimateur à noyau : 


i Dray (le 
ne 


L’estimateur des k plus proches voisins est défini très simplement : étant donné 
(t1,Y1),..., (En, Yn) avec z; E€ R?, y; ER et x € RP: 


(17.9) 


1. on réordonne les observations en fonction de leur proximité avec x : 


avec ||a)(2) — al] <... < lleqn(z) — all. 


2. Vestimateur des k plus proches voisins s’obtient en faisant la moyenne des y; 
qui figurent parmi les & plus proches voisins de x : 


A i 
Jk(x) = jo vo). 


17.4.2 Biais et variance 


Il existe de nombreux résultats théoriques sur les estimateurs présentés dans la 
section précédente. Nous nous contenterons d’en présenter certains sans énoncer les 
hypothéses techniques. On pourra consulter Tsybachov (2003) et Biau & Devroye 
(2015) pour plus de détails. On rappelle que nous sommes dans le modèle de 
régression 

Yi = f(ai) + £i, i=1,...,n 
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où les €; sont i.i.d d’espérance nulle et de variance g? > 0, les x; sont dans R? et 
f : RP > Rest la fonction à estimer. On considère ici l’estimateur à noyau f(x) 
en x € R? défini par (17.9). On rappelle que son erreur quadratique moyenne se 
décompose en un terme de biais et un terme de variance : 


EQM(Â(a)) =E((fu(2) — f(@))? 
= (ECG) — f(@)) + VA). 


On s'intéresse tout d’abord au terme de variance. Sous certaines hypothèses tech- 
niques, garantissant notamment que les observations sont bien réparties dans l’es- 
pace (voir exercice 17.4), on montre qu'il existe des constantes cı et Ci telles 
que 

C1 4 

nhP < V[fa(x)] < nhe’ 
Cette inégalité met en évidence l’influence de la valeur de la fenêtre h sur la 
variance de l’estimateur : un choix trop faible de h conduira à un estimateur 
possédant une forte variance alors qu’une forte valeur de h donnera une variance 
faible. 
L’étude du terme de biais nécessite des hypothèses de régularité sur la fonction 
f, ces hypothèses consistent généralement à supposer l’existence de dérivées à 
certains ordres. Supposons ici que f est lipschitzienne de constante L, c'est-à-dire 
que Y(z1, £2) € R? x R? 


|f (21) — f(w2)| < Lim — |, 


alors on montre (voir exercice 17.4) que le carré du biais de l’estimateur à noyau 
est contrôlé par C2h? : 


(EAE) -F@) < Cah? 


Ici encore on remarque l'influence de h : une forte valeur de h aura tendance à 
donner un biais élevé et réciproquement. Cependant il n’y a pas de dépendance de 
la dimension p dans cette borne concernant le biais. 

En mettant ensemble toutes ces briques, il est possible de borner PEQM d’un 
estimateur à noyau 


Cette borne peut être minimisée par rapport à h et la valeur de h permettant le 
minimum est de l’ordre de 


h =Ihn ~ nT CtP), 


Avec ce choix, nous concluons que 


E(fa(x) — f(x))? < Čn7?/ C+»), 
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On retrouve d’un point de vue théorique l'importance du choix de ce paramètre. 
On peut visualiser cet importance sur la figure 17.5 de l’exemple de l’ozone. Nous 
voyons que l’estimateur avec la plus forte valeur de h (h = 20) est très lisse, 
trés plat. Cet estimateur posséde une variance faible mais un biais trés élevé. A 
Vinverse, l’estimateur avec une très petite fenêtre (h = 0.05) est très instable. 
Cet estimateur est fortement dépendant des données : il a tendance a passer par 
quasiment tous les points de l’échantillon et donc à sur-ajuster les données. D’après 
les résultats ci-dessus, nous remarquons que cet estimateur posséde un biais faible 
mais une variance trés élevée. Le sur-ajustement se traduit généralement par un 
probleme de variance des estimateurs. 


Remarque 

Nous avons présenté uniquement des résultats pour l’estimateur à noyau. On re- 
trouve exactement le même type de propriétés pour l’estimateur des plus proches 
voisins. C’est cette fois le paramètre k qui régulera le compromis biais/variance. 
En effet, pour une forte valeur de k, on va considérer un très grand nombre de 
plus proches voisins. L’estimateur sera ainsi très (trop) stable, ce qui se traduira 
par peu de variance mais beaucoup de biais. À l’inverse, une très faible valeur 
de k va produire un estimateur très dépendant des données, qui risque de sur- 
ajuster (beaucoup de variance et peu de biais), voir figure 17.6. Ces intuitions se 
retrouvent mathématiquement. En effet, sous des hypothèses similaires à celles 
présentées pour l’estimateur à noyau, on montre (voir par exemple Biau & De- 
vroye (2015)) que le carré du biais est de l’ordre C/k et la variance de l’ordre de 
Ch(k/n)?/” où C! et C} sont des constantes qui dépendent du modèle. 


17.4.3 Fléau de la dimension 


Nous proposons ici une discussion sur la différence entre les approches paramé- 
triques et non paramétriques dans le modèle de régression. Poser un modèle re- 
vient à supposer que f appartient à une classe de fonctions F. Par exemple, le 
modèle linéaire étudié dans les premiers chapitres du livre fait hypothèse que f 
est linéaire en ses composantes : 


f(x) = f(£1,---, £p) = b121 +... + Pptp. 


Sous cette hypothèse, estimer f revient à estimer le vecteur 6 = ((61,..., 8p) qui 
est de dimension finie, on parle de modèle paramétrique. A l’inverse, une approche 
non paramétrique fera l'hypothèse que f appartient à une classe de fonctions de 
dimension infinie, par exemple l’ensemble des fonctions continues ou dérivables ou 
encore lipschitziennes comme nous l’avons fait dans la section précédente. Présenté 
ainsi, l’approche non paramétrique peut sembler plus attractive. En effet, les hy- 
pothèses faites sur la fonction f sont généralement moins contraignantes dans les 
modèles non paramétriques (une fonction linéaire est par exemple forcément conti- 
nue). Il y a néanmoins un prix à payer à utiliser des modèles non paramétriques. 
Ce prix se situe le plus souvent au niveau de la précision d’estimation. En effet, 
un modèle non paramétrique étant plus « grand » qu’un modèle paramétrique, il 
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va généralement étre plus difficile de se rapprocher de la cible inconnue avec une 
approche non paramétrique. Les différences de précisions d’estimation peuvent le 
plus souvent se quantifier. Restons dans l’exemple du modéle (paramétrique) de 
régression linéaire. Nous avons dans les premiers chapitres étudié les propriétés 
des estimateurs des MCO. Il a notamment été montré que ces estimateurs étaient 
sans biais et que la variance était de l’ordre de 1/n (voir section 5.8.3, p. 114). On 
peut ainsi en déduire que l’erreur quadratique 


E(llÊmco — Lll?) 


tend vers 0 à la vitesse 1/n (voir aussi exercice 17.5). Cette vitesse est courante 
pour les estimateurs paramétriques, on peut par exemple obtenir la même vitesse 
pour les estimateurs du maximum de vraisemblance du modèle logistique (voir 
chapitre 11). Si maintenant on fait simplement l'hypothèse (non paramétrique) 
que f est lipschitzienne, alors nous avons vu dans la section précédente que le 
carré du biais de l’estimateur à noyau est de l’ordre de h? et sa variance de l’ordre 
de 1/nh?. Comme la valeur de h qui minimise l'erreur quadratique est de l’ordre 
de n—'/+2) (voir exercice 17.4) on a pour cette valeur optimale 


E((fhope(2) — F) < zm (17.10) 


Remarquons que cette vitesse dépend du nombre de variables explicatives p : elle 
diminue lorsque p augmente. Cela signifie que les approches non paramétriques 
seront généralement peu performantes lorsque p est grand : c’est le fléau de la 
dimension. Intuitivement ce phénomène peut s’expliquer par le fait que les estima- 
teurs non paramétriques (noyau ou plus proches voisins par exemple) sont définis 
à partir des observations qui sont proches de x. Pour être précis, il faut donc suffi- 
samment de données dans un voisinage de x. Or, lorsque la dimension augmente, 
les voisinages ont tendance à se vider, il y aura donc moins d’observations (et donc 
d’information) à disposition pour bien estimer. 

Notons également que quel que soit p fixé, la vitesse (17.10) est plus lente que la 
vitesse paramétrique en 1/n. On peut interpréter ce résultat en disant que les esti- 
mateurs non paramétriques sont moins précis que les estimateurs paramétriques. 
En pratique, il est toujours difficile de savoir quelle modélisation retenir pour ré- 
pondre à un problème posé. Le modèle paramétrique linéaire présente en effet 
Vavantage d’être plus facilement interprétable : on a un paramètre pour chaque 
variable mais il repose sur l’hypothèse que la relation entre Y et les covariables 
X1,...,Xp est linéaire. Si cette hypothèse n’est pas vérifiée par les données, ce 
modèle ne sera pas performant. Il peut être intéressant d’utiliser les méthodes 
proposées au chapitre 10 pour comparer ces différentes familles de modèles. 

Il existe des approches intermédiaires à ces deux types de modèles, on peut par 
exemple citer le modèle additif 


yi = fı(zi1) +... + fp(£ip) + €i 


où les fj, j =1,...,p sont des fonctions (inconnues) de R dans R. Cette approche 
conserve la structure additive du modèle linéaire mais supprime la linéarité. Il 
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existe des procédures non paramétriques pour estimer les f;, on peut par exemple 
citer l’algorithme du backfitting. Ces fonctions dépendant d’une seule variable, les 
estimateurs obtenus ne souffrent généralement pas du fléau de la dimension. On 
pourra consulter Wood (2006) pour un descriptif précis de ces modèles. 


17.5 Exercices 


Exercice 17.1 (Questions de cours) 
1) En régression non paramétrique, si la fenêtre utilisée est petite, l'estimateur obtenu, en 
général, 
A. varie beaucoup, 
B. ne varie pas, 
C. il n'y a pas de rapport entre la variation de l'estimateur et la taille de la fenêtre. 
2) Lors de l’utilisation de k-ppv, lorsque k est grand, l'estimateur obtenu, en général, 
A. varie beaucoup, 
B. ne varie pas, 
C. il n'y a pas de rapport entre la variation de l'estimateur et le nombre de voisins. 
3) Lorsque l'on augmente le paramètre de lissage (fenêtre ou nombre de voisins), le degré 
de liberté équivalent 
A. diminue, 
B. augmente, 
C. il n'y a pas de rapport entre le degré de liberté équivalent et le paramètre de lissage. 


Exercice 17.2 (Estimateur de Nadaraya-Watson) 
Nous souhaitons effectuer une régression constante locale, cela revient à minimiser 


où 


Montrer que l'estimateur de B1(x) est 


Bey = Lin) 
i=l pi (x) 


Exercice 17.3 ({Polynémes locaux) 
Il est souvent préférable d'effectuer une régression linéaire locale à la place d'une régression 
constante. Cela revient alors à minimiser 


où 
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Montrer que l’estimateur de B1(x) est 


2 Mea yiqi(x) 
DIET OR 


où 


qi(z) = pi(x)(S2 — (ai — x)S1) 


8 = D(A) ann 
S2 = Yok (252) ea 


Utiliser les résultats du chapitre 4 et écrire (X’Q71X) en fonction de Sı et So. 


Exercice 17.4 ({ Estimateur à noyau uniforme dans R?) 
On considère le modèle de régression 
yi = m(zi) +€ i=1,...,n 


où £1,..., Zn € R? sont déterministes et £1, . . . , €n sont des variables i.i.d. d'espérance nulle 
et de variance ø? < +00. On désigne par ||. || la norme euclidienne dans R?. On définit 
l'estimateur localement constant de m en x € IR? par: 


ee eee | 
m(x) = argmin X “(vi a) x 7 ) 


où h > 0 et pour u € R, K(u) = 10,1 (u). On suppose que 57", K (el) > 0. 
1) Donner la forme explicite de (x). 
2) Montrer que 


o? 


E K (A) 


X, (m(z:) — m(x))K (L=) 
Dore 


3) On suppose maintenant que m est lipschitzienne de constante L, c'est-à-dire que 
V(z1, z2) € R? x Rİ 


V[rr(z)] 


et 


Efñ(x)] — m(x) = 


Im(z1) — m(z2)| < Eller — zəl. 
Montrer que 
Ibiais[m(zx)]| < Lh. 
4) On suppose de plus qu'il existe une constante C4 telle que 
C< i= 1B, (mi — 2) | 
E nVol( Br) 


où By = {u € R? : [[u]| < h} est la boule de rayon h dans R?” et Vol(A) désigne le volume 
d'un ensemble A C R?. Montrer que 


C20? 
nhe ’ 


où C2 est une constante dépendant de Cı et d à préciser. 


Vlh(x)] < 
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5) Déduire des questions précédentes un majorant de l'erreur quadratique moyenne de 
6) Calculer hope la valeur de h qui minimise ce majorant. Que vaut ce majorant lorsque 
h = hopt ? Comment varie cette vitesse lorsque p augmente ? Interpréter. 


Exercice 17.5 (Vitesse de la régression univarié en design equi-espacé) 
On considère le modèle de régression linéaire 


Yi = bxi + £i, CE EE LE 
où x; = i/n et les £; sont i.i.d tels que Ele;] = 0 et V(ei) = o’. 
1) Calculer l’estimateur des moindres carrés 8 de £. 
2) Calculer le biais et la variance de £. 
3) En déduire que le risque quadratique de 8 vérifie 
A a 1 
E[(6— B)"]=O(— ). 
n 
Exercice 17.6 ({ Critère LOO) 
On se place dans un modèle régression et on désigne par fx et fx les estimateurs à noyau de 
fenêtre h > 0 et des k plus proches voisins. 
1) Montrer que ces deux estimateurs sont des lisseurs. On désignera par Sx et Sp les 
matrices de lissage. 
2) Montrer que 
Fi Sij,h 
Jam) = 5 I- Sun” 


JA 


fi _ Sij,k+1 
f(z) = 5 IS a 
jżi | 


et 


où et fi sont les estimateurs à noyau et des k plus proches voisins calculés sans la 7° 
observation et Sijn et Sij,k désignent les termes de la 7° ligne et la j° colonne de Sn et Sx. 
3) En déduire (17.7) et (17.8). 


Exercice 17.7 (Caret et kppv) 
Dans le cadre de l'explication de l'ozone (03) par la température à midi (T12) nous utilisons 
un estimateur des k plus proches voisins. 
Estimer k en utilisant une validation croisée 10 blocs en utilisant le package caret. On pourra 
utiliser la procédure ci-dessous. 
1) Créer un data-frame grille contenant une variable nommée k contenant toutes les 
valeurs entières de 1 à 40. 
2) Créer un objet (nommé ctr1) via la fonction trainControl pour proposer une validation 
croisée 10 blocs. 
3) En utilisant ctrl et grille dans les arguments trControl et tuneGrid de la fonction 
train trouver le meilleur k au sens du RMSE. 


Annexe A 


Rappels 


A.1 Rappels d’algèbre 


Nous ne considérons ici que des matrices carrées réelles. Nous notons À une matrice 
et A’ sa transposée. Pour i et j variant de 1 à n, nous noterons a;; le terme courant 
de la matrice carrée A de taille n x n aij. 


Quelques définitions 


Une matrice A est inversible s’il existe une matrice B telle que AB = BA = I. 
On note B= Aq}. 
La matrice carrée A est dite symétrique si A’ = A, 
singulière si det(A) = 0, 
inversible si det(A) Æ 0, 
idempotente si AA = A, 
orthogonale si A'A = AA’ =I. 
définie positive si x’ Ax > 0 pour tout x Æ 0. 
semi-définie positive si x’ Ax > 0 pour tout x Æ 0. 


Le polynôme caractéristique est det(A — AZ). Les valeurs propres sont les solu- 
tions de det(A — AI) = 0. Un vecteur propre associé à la valeur propre À est une 
solution non nulle de Ax = Ax. 


Quelques propriétés 


e tr(A) = Mai ii. 

e tr(A+ B) = tr(A) +tr(B),tr(AB) = tr(BA) et tr(aA) = atr(A). 

e tr(AA’) = tr(A’A) = SL D a; 

e det(AB) = det(A) det(B). 

e Si les matrices A et B sont inversibles, alors AAT! = A~'A = I, (A7!)! = (A’)7}, 
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(AB)~1 = B-1A7! et det(A7!) = 1/det(A). 
e La trace et le déterminant ne dépendent pas des bases choisies. 


Matrices semi-définies positives (SDP) 


e Les valeurs propres d’une matrice SDP sont toutes positives ou nulles (et réci- 
proquement pour toute matrice symétrique). 

e Si A est SDP et inversible, A est forcément définie positive (DP). 

e Toute matrice A de la forme A = B’B est SDP. En effet Vz € R”, 2’ Ax = 
x'B'Bx = (Ba) Ba = ||Ba||? > 0. 

e Toute matrice de projecteur orthogonal est SDP. En effet, les valeurs propres 
d’un projecteur valent 0 ou 1. 

e Si B est SDP, alors A’BA est SDP. 

e Si A est DP, B SDP alors A! — (A+ B)~! est SDP. 


Matrices symétriques 


e Les valeurs propres de A sont réelles. 

e Les vecteurs propres de A associés à des valeurs propres différentes sont ortho- 
gonaux. 

e Si une valeur propre À est de multiplicité k, il existe k vecteurs propres ortho- 
gonaux qui lui sont associés. 

e La concaténation de l’ensemble des vecteurs propres orthonormés forme une ma- 
trice orthogonale P. Comme P’ = P~?, la diagonalisation de A s’écrit simplement 
P'AP = diag(A,---, An). 

e tr(A) = oy, À et det(A) = Jhi] ài- 

e rang(A) = nombre de valeurs propres non nulles. 

e Les valeurs propres de A? sont les carrés des valeurs propres de A et ces deux 
matrices ont les mémes vecteurs propres. 

e Les valeurs propres de A~! (si cette matrice existe) sont les inverses des valeurs 
propres de A et ces deux matrices ont les mémes vecteurs propres. 


Propriétés sur les inverses 

e Soit M une matrice symétrique inversible de taille px p et u et v deux vecteurs de 
taille p. Nous supposerons que u’/ M~!v Æ —1, alors nous avons l'inverse suivante 
M=tuv M! 


M HEM inde N 
aren) 1+uM-ty 


(A.1) 


e Soit M une matrice inversible telle que 


T|U 
“= hr) 
avec T inversible, alors Q = W — VT—!U est inversible et l’inverse de M est 
ine T14+T 'UQ VT | -TUQ 
-Q-'vT-! | Q7! P 
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Propriétés sur les projections 


Une matrice carrée idempotente et symétrique est une matrice de projection or- 
thogonale sur un sous-espace de R”, noté M. Pm est un projecteur orthogonal, si 
le produit scalaire (Pumy, y — Puy) = 0 pour tout y de R”. 

e Les valeurs propres d’une matrice idempotente valent 0 ou 1. 

e Le rang d’une matrice idempotente est égal à sa trace. 

e tr(Pu) est égal à la dimension de M. 

e La matrice I — Pu est la matrice de projection orthogonale sur M+. 


M+ 
Y — PMY 


Soit X = [X1,--- , Xp] la matrice (n,p), de rang p, des p variables explicatives 
du modèle linéaire. Soit le sous-espace vectoriel S(X) engendré par ces p vecteurs 
linéairement indépendants et P la matrice de projection orthogonale sur S(X). Le 
vecteur y — Py doit être orthogonal à tout vecteur de S(X), or tous les vecteurs de 
SX) sont de la forme Xu, en particulier il existe un vecteur b tel que Py = Xb. 
Il faut donc que (Xu,y — Py) = 0 pour tout vecteur u. En développant, nous 
obtenons X/y = X'Py = X'Xb. X'X est inversible donc b = (X’X) !X'/y et 
donc P = X(X'X)71X". 


Dérivation matricielle 


Soit f une fonction différentiable de R? dans R. Le gradient de f est par définition 
o o 
vin) = gradj) = [2E , E] 


Oui i i dup 


et le hessien de f est la matrice carrée de dimension p x p, souvent notée V? f ou 


H(f), de terme général H(f);; = ot. 


Si f(u) = a'u où a est un vecteur de taille p, alors V(f) =a’ et H(f) = 0. 
Si f(u) = u' Au, alors V(f) = u (A+ A’) et H(f) =A+A’. 
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A.2 Rappels de probabilités 

Généralités 

Y vecteur aléatoire de R” est par définition un vecteur de R” dont les composantes 
Yi,---,Y, sont des variables aléatoires réelles. L’espérance du vecteur aléatoire 


Y, E(Y) = (E(%),--- , E(%,))’ est un vecteur de R” et la matrice de variance- 
covariance de Y de taille n x n a pour terme général Cov(Y;, Y;). 


V(Y) = £y E [(Y -E(Y))(Y -E(Y))] 


E(YY') — E(Y)(E(Y)). 


Considérons une matrice fixée (déterministe) A de taille n x n et b un vecteur fixé 
de R”. Soit Y un vecteur aléatoire de R”, nous avons les égalités suivantes 


E(AY +b) = AE(Y)+b 
V(AY +b) = V(AY)= AV(Y)A. 


Si Y est un vecteur aléatoire de R” de matrice de variance-covariance Xy, alors 
pour la norme euclidienne 


E(IY — E(Y)||?) = tr(Zy). 


Nous avons les égalités utiles suivantes 


tr(E(YY")) = E(tr(YY’)) = E(tr(Y’Y)) = tr(Zy) + E(Y)E(Y). 


Vecteurs aléatoires gaussiens 


Un vecteur aléatoire Y est dit gaussien si toute combinaison linéaire de ses com- 
posantes est une v.a. gaussienne. Ce vecteur admet alors une espérance y et une 
matrice de variance-covariance Ny. On note Y ~ Wu, Ny). 

Un vecteur gaussien Y de R” d’espérance u et de matrice de variance-covariance 
Xy inversible admet pour densité la fonction 


ae 1 ae 
FY) = GE aY — WEY -a 


Les composantes d’un vecteur gaussien Y = (Yj,--- ,Y;,)’ sont indépendantes si 
et seulement si Uy est diagonale. 


Soit Y ~ N(u, Ny), alors (Y — VEHY — u) ~ x2. 


Théorème A.1 (Cochran) 
Soit Y ~ N(u,o°I), M un sous-espace de R” de dimension p et Py la matrice 
de projection orthogonale de R” sur M. Nous avons les propriétés suivantes : 
(i) PuY ~N(Pup,o?Pm) ; 
(ii) les vecteurs Puy et y — Puy sont indépendants ; 
(iii) || PuY — Puull?/o? ~ x5. 
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Index 


R?, voir R? ajusté 


A 
Aberrant, 54 
Accuracy, voir Critéres classification 
binaire, accuracy 
Affine, 9 
AIC, 175, 281 
Aire sous la courbe ROC, 314, 330 
Aitken, voir Estimateur, d’ Aitken 
Ajustement, 63 
individuel, 53 
Aléatoire 
bruit, 11, 32 
estimateur, 13 
Alternée, voir Choix de variables, pas a 
pas (stepwise) 
Analyse de la covariance, 119 
Analyse de la variance, 131, 142 
à 1 facteur, 131 
a 2 facteurs, 142 
tableau, 137, 150 
ANOVA, voir Analyse de la variance 
Apprentissage-validation, 238 
AUC, voir Aire sous la courbe ROC 
Autocorrélation des résidus 
choix des résidus, 52 
régression avec, 84, 87 
vérification graphique, 57 
vérification par test, 57 
Autorégressif 
d'ordre 1, AR(1), 84 
simultané SAR, 87 


B 
Backward, voir Choix de variables, 


descendant (backward) 
Biais 
de sélection, 164 
d’un estimateur, 14 
équilibre biais-variance, 39, 40, 
408 
estimateur a noyau, 407 
estimateur des k plus proches 
voisins, 409 
estimateur des MC, 14, 38 
estimateur du MV, 92 
estimateur ridge, 77 
BIC, 175, 281 
Bootstrap, 109 
Bruit 
définition, voir Aléatoire, bruit 
estimation, voir Résidus, 
définition 


C 
Cas/témoins, 358 
Centrage-réduction 
définition, 195 
utilité, 194 
Centre de gravité du nuage, 12 
Chemin de régularisation, 312, 318 
Choix 
fenêtre du noyau, voir Fenêtre, 
choix 
nombre de voisins k, voir Nombre 
de voisins k, choix 
Choix de variables, 159 
AIC, 175, 281 
algorithmes, 178, 280 
apprentissage-validation, 167 
ascendant (forward), 178, 282 
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BIC, 175, 281 
Cp de Mallows, 172 
de la logistique, 279 
descendant (backward), 179, 282 
du modèle de Poisson, 302 
exhaustif, 178, 280 
généralités, 168 
package bestglm, 281, 302, 335, 
342 
package leaps, 223 
pas a pas (stepwise), 179, 282 
R?, 170 
R? ajusté, 171 
test, 169 
validation croisée, 168 
vraisemblance, 174 
Classe de fonctions, 9, 32 
en escaliers, 396 
linéaires, 10 
lipschitzienne, 408 
Codage, 118, 183, 200, 208, 296, 311 
Coefficient de détermination, voir R? 
ajusté, voir R? ajusté 
Colinéarité des variables explicatives, 
74 
Comparaison de modèles 
Apprentissage-validation, 238 
apprentissage-validation 
définition, 238 
fonction de perte, 237 
validation croisée, 321 
applications, 241-248, 334-340 


choix de composantes, 221, 228 


choix de variables, 167 
définition, 239 
GLM régularisé, 315 


leave-one-out, 168, 240, 325, 404 


noyau, 403 
Composantes 
PLS, 226 
principales, 218 
Confiance 
ellipse, voir Ellipse de confiance 
hyperbole, 21, 22, 25 
intervalle, voir Intervalle de 
confiance 
intervalle par bootstrap, voir 
Intervalle de confiance 
région, voir Région de confiance 


Contraintes 
identifiantes, 133, 134, 145, 256, 
296 
norme, 205 
norme l°, 75 
norme minimum, 155 
sur les coordonnées, 50 
Contrastes, 155 
Convergence, 114 
en loi, 115 
estimateur, 114 
Cook, 60 
Courbe 
lift, 331 
ROC, 329, 338 
Coût, voir Fonction, de coût 
Covariance des erreurs 
exemples, 84 
généralités, 84 
vérification graphique, 57 
Cy de Mallows, 172 
Critéres classification binaire 
accuracy, 326, 367 
balanced accuracy, 367 
Fi-score, 368 
faux négatifs, 327 
faux positifs, 327 
kappa de Cohen, 368 
recall, 327 
sensibilité, 327 
Spécificité, 327 
Critéres d’information 
AIC, 175 
BIC, 175 
équivalences, 176 
généraux, 176 


D 
Décentrée (loi), 101, 108, 113 
Décomposition en valeurs singuliéres, 
211 
Degré de liberté, 43, 100 
équivalent, 393, 404, 406 
Dépendantes (variables), voir 
Variables, explicatives 
Déviance 
binomiale, 314 
Poisson, 314 
DFFITS, 63 


Index 


Distance 
de Cook, 60, 61 
Welsh-Kuh, 63 
Données déséquilibrées, 353 


E 
Ecart-type, voir Variance, résiduelle, 
définition 
Echantillon 
apprentissage-validation, voir 
Comparaison de modèles, 
Apprentissage-validation 
observations, 11, 13 
Echelle de mesure, 194 
Elastic-net, 309-313 
elastic-net, 310 
Ellipse de confiance, 21, 26, 95 
GNU-R, 95 
Emboités (modéles), 98, 169, 176, 264 
EQM 
définition, 39 
estimateur à rétrécissement, 212 
estimateur ridge, 77, 86 


modèle de régression, 164-166, 172 


Valeurs ajustées, 164 
EQMP, 166, 168, 221, 228 
Equations normales, 11 
Erreur 
définition, voir Aléatoire, bruit 
estimation, voir Résidus, 
définition 
Erreur de classification, 314 
Erreur de prévision, 16, 41 
Erreur quadratique moyenne de 
prévision, 166 
Espace 
des observations, 16 
des résidus, 35, 40 
des solutions, 35 
des variables, 17, 35 
Estimable, voir Unicité, B 
Estimateur 
à noyau, 399, 406 
B, voir Estimateur, MC 
d’ Aitken, 82 
de James-Stein, 78, 203, 204 
de variance minimale, 14, 15, 38 
des k plus proches voisins, 402, 
407 


des moindres carrés, voir 
Estimateur, MC 
des moindres carrés contraints, 
113 
MC, 34, 135 
loi, 92, 93 
variance, 14, 41 
MCG, 82 
MV, 91 
de la logistique, 259 
Poisson, 296 
polynômes locaux, 411 
sans biais, 14, 15, 41 
o? 
loi, 92, 93 
Eucalyptus 
ANCOVA, 117, 119, 129 
introduction, 5 
régression multiple, 45 
régression simple, 26 
tests, 104 
Exogènes (variables), voir Variables, 
explicatives 


F 
Fı-score, voir Critères classification 
binaire, Fi-score 
Faux négatifs, voir Critères 
classification binaire, faux 
négatifs 
Faux positifs, voir Critères 
classification binaire, faux 
positifs 
Features ingeniering, 245, 342 
Fenêtre 
choix, 403 
définition, 399 
Fictives, voir Variables, fictives 
(dummy) 
Fonction 
de coût, 5-7, 32 
absolu, 8 
absolu ou MAE, 7 
quadratique, 7, 8 
de lien 
canonique, 291 
classiques, 290 
définition, 290 
en R, 291 
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logistique, 254, 291 
Poisson, 291 
de perte, 5 
fixe d’une variable 
cas général, 34 
exemple de l’eucalyptus, 45 
Forward, voir Choix de variables, 
ascendant (forward) 


G 
Gauss-Markov, 15, 38, 80 
Géométrie 
espace des variables, 35 
modèle de régression, 33 
modèle de régression avec 
interaction, 33 
modèle de régression avec 
interaction et carré, 34 
régression, 35 
régression ridge, 76 
GLM, voir Modélisation, GLM 
Group lasso, 317 


H 
Hétéroscédasticité, 55, 78, 79, 293 
Homoscédasticité, 14, 38, 55, 78 
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linéaire simple, 10 
logistique, 251 
sur variables centrées-réduites, 
194, 217, 225 
Modèle saturé 
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définition, 402 
Non linéaire 
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Tn-p Loi de Student à (n — p) degrés de liberté, page 20 
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